当前位置: 首页 > news >正文

网站更新和维护怎么做广告推广方案怎么写

网站更新和维护怎么做,广告推广方案怎么写,关于优化培训,win2003 iis配置网站爬取当当网图书数据并保存到本地,使用request、lxml的etree模块、pandas保存数据为excel到本地。 爬取网页的url为: http://search.dangdang.com/?key{}&actinput&page_index{} 其中key为搜索关键字,page_index为页码。 爬取的数据…

爬取当当网图书数据并保存到本地,使用request、lxml的etree模块、pandas保存数据为excel到本地。

爬取网页的url为:

http://search.dangdang.com/?key={}&act=input&page_index={}

其中key为搜索关键字,page_index为页码。

爬取的数据包括:爬取的数据包括:书名、作者、图书简介、出版社、出版日期、价格、评论数量。

  

代码如下:

import random
import requests
from lxml import etree
import pandas as pd
import timedata = []
data.append(['书名', '作者', '图书简介', '出版社', '出版日期', '价格', '评论数量'])
def get_book_info(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}response = requests.get(url, headers=headers)response.encoding = 'gbk'if response.status_code == 200:selector = etree.HTML(response.text)        book_list = selector.xpath('//*[@id="component_59"]/li')for book in book_list:# 书名          book_name = ''.join(book.xpath('.//p[1]/a/@title'))# 作者book_author = ''.join(book.xpath('.//p[5]/span[1]/a/@title'))# 图书简介book_intro = ''.join(book.xpath('.//p[2]/text()'))# 出版社book_publisher = ''.join(book.xpath('.//p[5]/span[3]/a/@title'))        # 出版日期    book_date = ''.join(book.xpath('.//p[5]/span[2]/text()'))# 价格book_price = ''.join(book.xpath('.//p[3]/span[1]/text()'))# 评论数量book_comments = ''.join(book.xpath('.//p[4]/a/text()'))# 随机等待时间,防止被封IPrdn = random.randint(1, 5)         print(f'等待时间:{rdn}')time.sleep(rdn)data.append([book_name, book_author, book_intro, book_publisher, book_date, book_price, book_comments])if __name__ == '__main__':    keyword = input('请输入搜索关键字:')page_index = 1while True:url = f'http://search.dangdang.com/?key={keyword}&act=input&page_index={page_index}'print(f'正在爬取第{page_index}页数据...')get_book_info(url)page_index += 1if page_index > 1:breakdf = pd.DataFrame(data[1:], columns=data[0])# 将DataFrame保存为Excel文件df.to_excel(f'{keyword}.xlsx', index=False)

http://www.15wanjia.com/news/33202.html

相关文章:

  • 网站结构合理免费外链网站seo发布
  • 做蛋糕的网站网站建设制作模板
  • 网页制作培训教学seo最好的工具
  • 深圳网站建设公司服务流程快速收录工具
  • iis配置网站开发环境佛山网站建设十年乐云seo
  • wordpress 模版定制seo关键词优化排名推广
  • 帝国cms做动态网站性能如何在线生成个人网站app
  • 公司怎么在网上推广优化大师安卓版
  • 服装商店的网站建设要求总推荐榜总点击榜总排行榜
  • 网页设计作品我的家乡谷歌seo搜索引擎下载
  • 怎么样用html做asp网站百家号权重查询站长工具
  • 安徽做网站的公司有哪些市场调研报告ppt
  • 北京网站建设 seo公司厦门网站制作
  • 做网站需要什么基础武汉网站搜索引擎优化
  • 如何做网站建设西安网站建设
  • 仪陇建设局网站seo自动发布外链工具
  • 网站建设的cms系统整站优化系统厂家
  • 怎么做网站代销独立站seo搜索优化
  • 网站开发产生费用分录怎么写如何做网络营销
  • 易思企业网站管理绍兴seo网站优化
  • 网站建设优化文章小广告多的网站
  • 哪些公司做外贸网站好seo综合查询平台官网
  • 自己做的网站怎么放视频教程广州网络seo优化
  • 企业网站建设合同书.doc网站排名首页前三位
  • 重庆网站建设外包杭州网站关键词排名优化
  • 网站后台操作模板b2b国际贸易平台
  • 哪些网站可以做推广站长聚集地
  • 网站制作效果好it培训机构靠谱吗
  • wordpress放在github上seo优化搜索结果
  • 网站建设 技术链友之家