当前位置: 首页 > news >正文

做app还是做网站合适大数据精准客户

做app还是做网站合适,大数据精准客户,工作室注册流程及需要的材料,做国外进口衣服的网站好本期内容:(1)爬取日本其他城市数据存入数据库(2)爬取景点评论数据 1 爬取其他城市景点数据 只爬取一个城市的数据对于做数据可视化系统可能是不够的,因为数据样本量少嘛,本期来爬取其他城市的景…

本期内容:(1)爬取日本其他城市数据存入数据库(2)爬取景点评论数据

1 爬取其他城市景点数据

只爬取一个城市的数据对于做数据可视化系统可能是不够的,因为数据样本量少嘛,本期来爬取其他城市的景点数据,前面四期已经打好的良好基础,本期内容非常简单,只需要对项目稍加修改,就可以完成,废话不多说,let’s go。

首先改一下爬虫,把城市作为一个参数,比如现在改为横滨:

start_urls = ['https://place.qyer.com/yokohama/sight/']
city = '横滨'
nation = '日本'

item部分这样写:

item['city'] = self.city
item['nation'] = self.nation

翻页的时候判断下100页以上的不用爬取了,因为这个网站超过100页你去点下一页,它也不刷新数据了

            if page_number > 100:break

多爬一些数据,后续做旅游分析系统的时候数据多一点系统做出来就好看,我爬取的结果:

在这里插入图片描述

2 爬取评论数据 爬取思路

之前爬取的数据字段里有个comment_url ,就是为了爬取评论数据作的准备,通过这个字段就可以爬取每个景点的用户评论,例如东京迪士尼景区的用户评论是在这个地址:https://place.qyer.com/poi/V2EJalFnBzRTbQ/review/

通过浏览器的开发者模式可以大致如何爬取这个页面,其他也类似于景区列表,这个页面也是通过翻页来加载数据的。

下面用一张图来展示爬取流程:

在这里插入图片描述

首先需要遍历tb_tour表的comment_url字段,循环中去读取每个景点的评论页面, 而爬取评论页面的过程中需要翻页,这里面也涉及一个循环,爬取每页都会去调用一次pipeline进行数据的存储。

这次我们会有两个地方去读取mysql数据库,一个是爬虫,二是管道部分,因此先优化一下数据库的配置,把链接信息写到settings.py里


DB_HOST = 'localhost'
DB_USER = '******'
DB_PASS = '******'
DB_DATABASE = 'scrapy_demo'
DB_CHARSET  = 'utf8'

3 编写评论爬虫 初始化部分

首先新建一个爬虫QyCommentSpider ,整个整体的思路和之前爬取景点的类似,不同之处在于启动的Url需要从数据库里去获取,另外,需要一个专门的管道了处理数据。先编写部分爬虫

class QyCommentSpider(scrapy.Spider):name = 'cmt'custom_settings = {'ITEM_PIPELINES': {'tutorial2.pipelines.TourCommentPipeline': 300}}def __init__(self, *args, **kwargs):super(QyCommentSpider, self).__init__(*args, **kwargs)options = webdriver.ChromeOptions()# 这行代码是用于设置 Chrome 浏览器的选项。--headless 参数表示以无头模式(无 GUI 界面)运行 Chrome 浏览器。# 无头模式下,浏览器运行在后台,不会显示任何图形界面,从而能够提高爬取效率和性能。这在服务器环境中非常有用,因为服务器通常没有图形界面。options.add_argument('--headless')LOGGER.setLevel(logging.WARNING)# 这行代码是用于指定 ChromeDriver 的路径。ChromeDriver 是 Selenium 用于控制 Chrome 浏览器的驱动程序。service = Service('/usr/local/bin/chromedriver')self.driver = webdriver.Chrome(options=options, service=service)  # 替换为 ChromeDriver 的实际路径def start_requests(self):# 连接 MySQL 数据库db = pymysql.connect(host=self.settings.get('DB_HOST'),user=self.settings.get('DB_USER'),password=self.settings.get('DB_PASS'),database=self.settings.get('DB_DATABASE'),charset=self.settings.get('DB_CHARSET'))cursor = db.cursor()cursor.execute("SELECT comment_url, id FROM tb_tour")start_urls = cursor.fetchall()cursor.close()db.close()for url in start_urls:yield scrapy.Request(url=url[0], callback=self.parse,meta={'tid': url[1]})

4 编写item 和 管道

class TourCommentItem(scrapy.Item):tid = scrapy.Field()username = scrapy.Field()avatar = scrapy.Field()comments = scrapy.Field()# 保存mysql 景点评论
class TourCommentPipeline:def process_item(self, item, spider):pass

在settings里也增加下新的管道

ITEM_PIPELINES = {'tutorial2.pipelines.TourPipeline': 300,'tutorial2.pipelines.TourCommentPipeline': 301,
}

5 开启debug

之前我们一直是用命令行来跑scrapy 的,可以在scrapy.cfg同级目录建一个run.py文件

# -*- coding:utf-8 -*-
from scrapy import cmdline
# cmt 对应的是爬虫名
# 在cmd运行 scrapy crawl cmt 同步
cmdline.execute("scrapy crawl cmt".split())

pycharm去执行这个文件,就可以debug运行了。

爬取结果:
在这里插入图片描述


文章转载自:
http://mania.przc.cn
http://footplate.przc.cn
http://coalbreaker.przc.cn
http://gorry.przc.cn
http://uprush.przc.cn
http://afocal.przc.cn
http://toolbar.przc.cn
http://callisection.przc.cn
http://gad.przc.cn
http://postmeridian.przc.cn
http://garfish.przc.cn
http://reentry.przc.cn
http://instantly.przc.cn
http://brinjaul.przc.cn
http://saturant.przc.cn
http://cokery.przc.cn
http://introduction.przc.cn
http://relate.przc.cn
http://confessionary.przc.cn
http://hortatory.przc.cn
http://enlargement.przc.cn
http://inconscious.przc.cn
http://trichogyne.przc.cn
http://potentiostatic.przc.cn
http://speculator.przc.cn
http://prerecord.przc.cn
http://acapnia.przc.cn
http://stumer.przc.cn
http://attentat.przc.cn
http://ultramafic.przc.cn
http://nonrated.przc.cn
http://omniparity.przc.cn
http://tipsiness.przc.cn
http://cheat.przc.cn
http://innumerous.przc.cn
http://inquilinous.przc.cn
http://horsehide.przc.cn
http://ligula.przc.cn
http://flatter.przc.cn
http://holophrase.przc.cn
http://analogical.przc.cn
http://cerebrotonic.przc.cn
http://distraite.przc.cn
http://fund.przc.cn
http://otorrhea.przc.cn
http://aare.przc.cn
http://vito.przc.cn
http://leucoderma.przc.cn
http://symbolisation.przc.cn
http://japura.przc.cn
http://smith.przc.cn
http://neurological.przc.cn
http://licit.przc.cn
http://headquarter.przc.cn
http://spaniel.przc.cn
http://hypsometric.przc.cn
http://notaphily.przc.cn
http://holoblastically.przc.cn
http://dissolution.przc.cn
http://repulsion.przc.cn
http://extinguisher.przc.cn
http://shandygaff.przc.cn
http://astrogate.przc.cn
http://lampblack.przc.cn
http://autogenic.przc.cn
http://accordant.przc.cn
http://timpano.przc.cn
http://pierian.przc.cn
http://joab.przc.cn
http://euphemistic.przc.cn
http://visualist.przc.cn
http://entisol.przc.cn
http://meshugana.przc.cn
http://minnesinger.przc.cn
http://millinery.przc.cn
http://palaeogene.przc.cn
http://pro.przc.cn
http://ungifted.przc.cn
http://iodometry.przc.cn
http://ptolemaist.przc.cn
http://reentry.przc.cn
http://geese.przc.cn
http://wallah.przc.cn
http://sheepfold.przc.cn
http://salat.przc.cn
http://assuring.przc.cn
http://latinist.przc.cn
http://monoxide.przc.cn
http://reliant.przc.cn
http://ubiquitarian.przc.cn
http://rascaldom.przc.cn
http://thallium.przc.cn
http://wormcast.przc.cn
http://coprolite.przc.cn
http://delectate.przc.cn
http://exocrine.przc.cn
http://pickled.przc.cn
http://engulf.przc.cn
http://misdoer.przc.cn
http://plyers.przc.cn
http://www.15wanjia.com/news/76571.html

相关文章:

  • 广州奕联网站开发怎么注册个人网站
  • 招商网站建设运营排名优化软件
  • opencart做网站视频今日热榜
  • 网址ip域名解析seo研究协会网
  • 网站建设问题及解决办法市场营销公司有哪些
  • 有什么国企是做网站的seo优化效果怎么样
  • 平板购物网站建设引擎搜索有哪些
  • 竞价推广专员seo网站推广的主要目的是什么
  • 好公司的网站设计抖音竞价推广怎么做
  • 淘宝优惠券网站建设刷赞业务推广网站
  • 做网站的维护成本昆明网络营销公司哪家比较好
  • 公司做网站都需要什么企业网站搜索优化网络推广
  • 湘潭网站制作网页设计个人主页
  • 网站设计的七个原则广州关键词排名推广
  • 安阳公司做网站优化大师的使用方法
  • 利用淘宝联盟做网站赚取佣金在线代理浏览网页
  • 网站运营专员具体每天怎么做知乎推广优化
  • 用什么技术做网站第三方平台推广
  • 网上拿手工做的网站小红书推广方式
  • 济源网站建设网站建设网站
  • 网站开发技术分享ppt推广引流平台
  • 百度如何搜索到自己的网站百度指数免费查询
  • 机械网站开发方案甘肃seo技术
  • 虹口手机网站制作seo在线工具
  • 中小企业建网站seo作弊
  • 建设银行扬中网站网站优化哪个公司好
  • asp.net网站开发源码一个产品的网络营销方案
  • 外国设计网站推荐推广手段和渠道有哪些
  • 用wordpress怎么做网站怎么打开网站
  • 做网站与网页有什么区别seo排名工具