当前位置: 首页 > news >正文

谷歌地图嵌入网站云南网站建设专家

谷歌地图嵌入网站,云南网站建设专家,风险网站如何解决办法,普陀区网站建设公司哪家好如何利用Scrapy框架实战提取百度首页热榜新闻的排名、标题和链接 一、安装Scrapy库 二、创建项目(以BaiduSpider为例) scrapy startproject BaiduSpider生成每个文件的功能: 二、 创建爬虫脚本(爬虫名:news&#xff…

如何利用Scrapy框架实战提取百度首页热榜新闻的排名、标题和链接

一、安装Scrapy库

在这里插入图片描述

二、创建项目(以BaiduSpider为例)

scrapy startproject BaiduSpider

在这里插入图片描述

生成每个文件的功能:

在这里插入图片描述

二、 创建爬虫脚本(爬虫名:news)

scrapy genspider news www.baidu.com

命令执行成功后,spider目录中将生成news.py文件

在这里插入图片描述

(1)name:在同一个项目中,名字是唯一的,用来区分不同的spider。
(2)allowed_domains:允许爬取的域名,如果初始或后续请求的URL不是这个域名下的,则请求会被过滤掉,可以根据需要编辑或添加。
(3)start_urls:spider初始爬取的URL列表,可以根据需要编辑或添加。
(4)parse(self,response):解析返回的响应,提取数据或新的URL,response是请求start_urls后返回的响应。

三、修改settings脚本(位置:settings.py)

设置请求头中的User-Agent和不遵守Robots协议

在这里插入图片描述

四、完善爬虫(位置:news.py)

编写解析方法

在这里插入图片描述

五、 运行爬虫

正常运行爬虫命令

scrapy crawl news

不打印日志文件运行爬虫命令

scrapy crawl news --nolog

在这里插入图片描述

六、数据保存

6.1 修改items脚本(位置:items.py)

scrapy库提供Item对象来实现将爬取到的数据转换成结构化数据的功能。实现方法是定义Item类(继承scrapy.Item类),并定义类中的数据类型为scrapy.Filed字段。

在这里插入图片描述

6.2 编写解析方法(位置:news.py)

在这里插入图片描述

6.3 保存为JSON文件
scrapy crawl news -o news.json

命令执行成功后,BaiduSpider目录中将生成news.json文件

在这里插入图片描述

注意: 使用-o输出JSON文件时,会默认使用unicode编码,当内容为中文时,输出的JSON文件不便于查看。此时,可以在settings.py文件中修改默认的编码方式,即增加设置FEED_EXPORT_ENCODING = ‘utf-8’

http://www.15wanjia.com/news/155507.html

相关文章:

  • 备案网站名称更改宁德做网站
  • 网站颜色搭配网站龙岩网红打卡地
  • 湖南做网站 联系磐石网络wordpress写文章失败
  • 国家工业和信息化部网站备案系统学校资源网站 建设方案
  • 乐清网站定制公司app推广员好做吗
  • 玉树网站建设湛江城市建设培训中心网站
  • wordpress建网站长春做网站 长春万网
  • ?]后台的网站可以备案吗厦门建设官网
  • 谷歌推广网站怎么做北京谷歌seo
  • 中国空间站合作国家名单中国建设银行北京招聘信息网站
  • wordpress能做企业站吗微号网站开发
  • 哪个网站不花钱可以做招聘wordpress 伪静态 描述
  • 有那些可以自己做壁纸的网站做旅游宣传图的网站
  • 1000元做网站企业品牌网站源码
  • 绍兴柯桥区城乡建设局网站站长之家html模板
  • 国内自建站小程序制作图片
  • 移动网站开发语言璧山集团网站建设
  • 东莞专业网站推广多少钱德阳做网站的
  • 深圳南园网站建设下载 app
  • 汕头网站排名优化注册安全工程师考试题库
  • discuz蓝色城市门户论坛网站模板dede 电商网站模板下载
  • 系部网站开发计划书一个云主机可以做多少网站
  • 做网站时候编代码东莞网站案例营销
  • 辽宁建设厅中国seo
  • 商城网站怎么建设asp.net网站开发四酷全书
  • 软件定制化开发的知识产权归属祁阳seo
  • 买一个网站需要多少钱2022推广app赚佣金平台
  • 怎样进网站空间运城建设网站
  • 做知乎网站社区要多少钱网站建设如何
  • 无线路由器做中继手机能连接但无法访问网站企业商务网站建设论文