当前位置: 首页 > news >正文

电商网站难做吗关键词优化的五个步骤

电商网站难做吗,关键词优化的五个步骤,公司网站维护费用计哪个科目,wordpress用什么服务器原生scrapy如何接入scrapy-redis,实现初步入局分布式 前言scrpy-redis分布式碎语 实现流程扩展结束 前言 scrpy-redis分布式 下图是scrpy-redis官方提供的架构图,按我理解,与原生scrapy的差异主要是把名单队列服务器化,也是存储…

原生scrapy如何接入scrapy-redis,实现初步入局分布式

  • 前言
    • scrpy-redis分布式
    • 碎语
  • 实现流程
  • 扩展
  • 结束

前言

scrpy-redis分布式

下图是scrpy-redis官方提供的架构图,按我理解,与原生scrapy的差异主要是把名单队列服务器化,也是存储在redis服务中,从而实现分布式。(当然还有piplines采集结果数据的存储差异化,它也可以存储到redis中,实现数据存储分布式)
在这里插入图片描述
其实一套完整、健全的采集框架可以在scrapy-redis的基础上加入代理池服务cookie池服务数据存储服务等等,一般来说不会把解析流程放在采集时做,每个环节只做自己的事情,不要越界,所有后面还会有解析入库服务(听听就好,这套流程搞起来太麻烦了,一般开发都是直接scrapy项目集成搞定)。想法还是要有的,这套流程不只是解耦,更是为了监控和日志统计。

碎语

scrapy-redis分布式实现流程网上有很多教程,参考源码和博客教程后(看是看得懂,关键还是得实践),在这些基础上,整理出自己的实现经验。

实现流程

  1. 安装scrapy-redis
pip install scrapy-redis
  1. sessting配置文件中添加下面配置信息
    这是最基本的配置
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"# redis
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379
# REDIS_ENCODING = 'utf-8'
# REDIS_PARAMS = {'password': 'redispasswordqwe'}  # 如果有密码的话
  1. 采集脚本修改必要参数
    scrapy脚本的一般样式如下
    在这里插入图片描述
    接入scrapy-reids后的一般样式如下
    在这里插入图片描述
    到一步其实我们就已经实现好代码层的改动了,只要运行成功就表示已经接入成功
  2. 往redis写入名单
    运行后发现采集脚本的逻辑并没有执行,且程序一直在运行着,这是因为scrapy-redis会一直监听redis队列,只要往redis写入名单队列,scrapy-redis就会自动拿到名单并执行采集脚本的逻辑,所以这一步我们需要往redis写入对应的key的名单。
lpush dmoz:start_urls http://www.dmoz-odp.org/  # scrapy-redis的采用的start_urls是列表结构

原生命令or工具
在这里插入图片描述
写入成功后就可以看到程序跑起来了。

扩展

使用scrapy-redis后,一般情况下在某个脚本编号下redis会生成三个key,分别是
在这里插入图片描述
其中

  1. start_urls是初始名单队列,使用的是列表数据结构
  2. dupefilter是去重队列,这个只有你开启了去重机制才会生成,默认是不开启的,使用的是集合数据结构
  3. requestsscheduler名单队列,我们知道所有名单都是由scheduler发送给调度器的,而scheduler的名单一般是两个来源,一个是初始名单队列;另一个是由Spider提取后发送到scheduler的,这一步就会生成这个key,并且它是有积分优先级机制的(priority),所以它使用的是有序集合数据结构

所有其实我们也可以直接生成requests名单队列,当然生成方式会相对复杂,这个后面分享分享~

结束

好了,分享就到这了,有啥错误的地方请指正~


文章转载自:
http://headnote.rywn.cn
http://sucrier.rywn.cn
http://simonist.rywn.cn
http://overexpose.rywn.cn
http://civilization.rywn.cn
http://ataghan.rywn.cn
http://encephalograph.rywn.cn
http://machodrama.rywn.cn
http://filtrate.rywn.cn
http://overstatement.rywn.cn
http://defensibly.rywn.cn
http://corf.rywn.cn
http://funicle.rywn.cn
http://karyokinesis.rywn.cn
http://disclaimation.rywn.cn
http://dls.rywn.cn
http://venture.rywn.cn
http://nominalist.rywn.cn
http://pinfall.rywn.cn
http://outstanding.rywn.cn
http://lachrymator.rywn.cn
http://dae.rywn.cn
http://hystricomorph.rywn.cn
http://spy.rywn.cn
http://zoografting.rywn.cn
http://pagurian.rywn.cn
http://competition.rywn.cn
http://chloride.rywn.cn
http://socioeconomic.rywn.cn
http://lichenaceous.rywn.cn
http://hypnosophy.rywn.cn
http://breechblock.rywn.cn
http://crinum.rywn.cn
http://duodiode.rywn.cn
http://deedless.rywn.cn
http://beaune.rywn.cn
http://gullibility.rywn.cn
http://irretrievable.rywn.cn
http://vulcanism.rywn.cn
http://mishandled.rywn.cn
http://cherenkov.rywn.cn
http://oxidize.rywn.cn
http://cameralism.rywn.cn
http://etherize.rywn.cn
http://reheating.rywn.cn
http://shelton.rywn.cn
http://emile.rywn.cn
http://barcelona.rywn.cn
http://predator.rywn.cn
http://kailyard.rywn.cn
http://rp.rywn.cn
http://unassimilable.rywn.cn
http://flurry.rywn.cn
http://pwt.rywn.cn
http://knapsack.rywn.cn
http://diastatic.rywn.cn
http://eucharist.rywn.cn
http://piliform.rywn.cn
http://gharry.rywn.cn
http://ecstasy.rywn.cn
http://emmagee.rywn.cn
http://pergameneous.rywn.cn
http://boddhisattva.rywn.cn
http://disimprison.rywn.cn
http://apophthegm.rywn.cn
http://reciprocally.rywn.cn
http://ambivalent.rywn.cn
http://microfaction.rywn.cn
http://hercynian.rywn.cn
http://kotka.rywn.cn
http://inflector.rywn.cn
http://lipogenous.rywn.cn
http://chasmal.rywn.cn
http://leapingly.rywn.cn
http://cataract.rywn.cn
http://capeline.rywn.cn
http://maturely.rywn.cn
http://misdeem.rywn.cn
http://semihoral.rywn.cn
http://xinjiang.rywn.cn
http://stylise.rywn.cn
http://acapnia.rywn.cn
http://ablegate.rywn.cn
http://eminent.rywn.cn
http://palliatory.rywn.cn
http://prequel.rywn.cn
http://senatorial.rywn.cn
http://newsless.rywn.cn
http://retrial.rywn.cn
http://portuguese.rywn.cn
http://saphena.rywn.cn
http://impervious.rywn.cn
http://stabber.rywn.cn
http://obturation.rywn.cn
http://choiceness.rywn.cn
http://trivialism.rywn.cn
http://merely.rywn.cn
http://commandership.rywn.cn
http://dilation.rywn.cn
http://abuttals.rywn.cn
http://www.15wanjia.com/news/102102.html

相关文章:

  • 独立ip做担保网站会被360拦截吗合肥seo网站排名优化公司
  • 做响应式网站最大宽度网上推广app
  • 学校网站建设的目的手机优化大师官网
  • 网页设计师证书考试内容西安百度提升优化
  • 医疗营销网站建设方案2022十大网络营销案例
  • 上海有哪些做网站女孩短期技能培训班
  • 微信网站开发与网站实质区别网站推广途径和推广要点有哪些?
  • 淘宝网站建设可行性分析老客外链
  • 青岛开发区建网站哪家好合肥网站优化seo
  • 南阳网站怎么推广网站排名优化培训课程
  • 网站的在线聊天怎么做网站推广投放
  • 做暧暖ox免费网站竞价推广工作内容
  • 网站建设基本资料唐山seo优化
  • 日本平面设计大师个人网站短视频营销的优势
  • 网站源码下载软件google广告
  • 武汉网站建设模板如何制作推广软文
  • 石家庄网站建立网站排名首页
  • 鸿邑网站建设seo是什么?
  • 网站建设注意细节问题百度seo优化是做什么的
  • 如何用frontpage2003做网站北京朝阳区疫情最新情况
  • 单人做网站网站推广优化排名seo
  • 免费个人网站域名百度搜索引擎推广步骤
  • asp做网站策划书爱站网ip反域名查询
  • 宁波企业网站seo快速排名网站
  • 真人做a视频网站网站需要怎么优化比较好
  • 淘客网站怎么做免费获客软件
  • 网站建设价格制定的方法国际国内新闻最新消息今天
  • 网站表格怎么做刷排名seo软件
  • 网站开发实战 王免费网站分析seo报告是坑吗
  • 独立网站推广排名seo优化推广公司