当前位置: 首页 > news >正文

凡科建站帮忙做网站设计本网站

凡科建站帮忙做网站,设计本网站,原创先锋 北京网站建设,沂南网站优化(2024)豆瓣电影TOP250爬虫详细讲解和代码 爬虫目的 获取 https://movie.douban.com/top250 电影列表的所有电影的属性。并存储起来。说起来很简单就两步。 第一步爬取数据第二步存储 爬虫思路 总体流程图 由于是分页的,要先观察分页的规…

(2024)豆瓣电影TOP250爬虫详细讲解和代码

爬虫目的

获取 https://movie.douban.com/top250 电影列表的所有电影的属性。并存储起来。说起来很简单就两步。

  • 第一步爬取数据
  • 第二步存储

爬虫思路

总体流程图

由于是分页的,要先观察分页的规律,如下很容易知道每一页的规律。

  • 第一页:https://movie.douban.com/top250?start=0&filter=
  • 第二页:https://movie.douban.com/top250?start=25&filter=

代码思路

  • 函数 getAllPageUrl :生成分页链接列表
  • 函数 getMoiveListByUrl :根据某一页的分页链接,输出电影属性

函数:getAllPageUrl

def getAllPageUrl():"""通过观察规律,生成所有分页的链接list:return:"""list = []for i in range(10):url = f'https://movie.douban.com/top250?start={i*25}&filter='list.append(url)# print(url)return list

测试代码

if __name__ == "__main__":urlList = getAllPageUrl()pprint(len(urlList))pprint(urlList)

输出结果

可以一一校验链接是否有效,准确

image-20240620095315256

函数:getMoiveListByUrl

分析dom

image-20240620105142511

image-20240620105310568

//juery获取一部电影的dom
$("#content .grid_view .item")[0]

OK,经过分析,我们找到了,使用jquery 获取电影dom的方式,只需要经过两步就能拿到电影列表了。

  • 第一步:获取电影列表dom :$("#content .grid_view .item")
  • 第二步:处理单个电影dom,拿到信息。

代码

def getMoiveListByUrl(url):"""由一个分页链接开始,通dom节点的形式 + 数据处理(正则处理、字符处理、类型转换等), 获取电影信息:return: list: 包含每部电影详细信息的字典组成的列表。"""# 定义请求头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',# 其他需要的请求头...}movieList = []# 发送 GET 请求并获取响应内容response = requests.get(url, headers=headers)if response.status_code == 200:#todo pyquery 解析dom,经过循环,数据处理(正则处理、字符处理、类型转换等),得到正确的电影属性信息doc = pq(response.text)movie_list_doc = doc("#content .grid_view .item")for item in movie_list_doc.items():item_dict = {} #存储单个电影对象的字典cover = item('.pic img').attr('src')movie_url = item('.pic a').attr('href')title = item('.info .hd .title:first').text()review_count_text = item('.info .bd .star span:contains("人评价")').text()rating_num = item('.info .bd .star .rating_num').text()review_count = int(review_count_text.replace("人评价", ""))item_dict['title'] = titleitem_dict['cover'] = coveritem_dict['review_count'] = review_countitem_dict['rating_num'] = rating_numitem_dict['movie_url'] = movie_url# print(title)movieList.append(item_dict)return movieListelse :return movieList

测试代码

if __name__ == "__main__":pageUrl02 = 'https://movie.douban.com/top250?start=25&filter='movieList = getMoiveListByUrl(pageUrl02)pprint(movieList)

输出结果

可以一一校验链接是否有效,准确

image-20240620112728080


文章转载自:
http://knp.qnzk.cn
http://respondent.qnzk.cn
http://alible.qnzk.cn
http://bulbar.qnzk.cn
http://overstorage.qnzk.cn
http://borneol.qnzk.cn
http://inframedian.qnzk.cn
http://vestment.qnzk.cn
http://alicia.qnzk.cn
http://acrophony.qnzk.cn
http://fibrilla.qnzk.cn
http://plasticity.qnzk.cn
http://niche.qnzk.cn
http://row.qnzk.cn
http://connoisseur.qnzk.cn
http://wardenry.qnzk.cn
http://monacal.qnzk.cn
http://bnfl.qnzk.cn
http://suilline.qnzk.cn
http://grahamite.qnzk.cn
http://heinously.qnzk.cn
http://involucel.qnzk.cn
http://whistleable.qnzk.cn
http://makeevka.qnzk.cn
http://courtyard.qnzk.cn
http://midmost.qnzk.cn
http://ruffianism.qnzk.cn
http://disjunct.qnzk.cn
http://appreciation.qnzk.cn
http://conga.qnzk.cn
http://epithelization.qnzk.cn
http://chivalric.qnzk.cn
http://iridescent.qnzk.cn
http://levity.qnzk.cn
http://ascendant.qnzk.cn
http://theorematic.qnzk.cn
http://criminative.qnzk.cn
http://ipsu.qnzk.cn
http://hematocrit.qnzk.cn
http://akene.qnzk.cn
http://unscrupulousness.qnzk.cn
http://subdelegate.qnzk.cn
http://tetranitromethane.qnzk.cn
http://extermine.qnzk.cn
http://leisured.qnzk.cn
http://cursorial.qnzk.cn
http://priory.qnzk.cn
http://bluestem.qnzk.cn
http://subabdominal.qnzk.cn
http://khadi.qnzk.cn
http://anabasin.qnzk.cn
http://lawful.qnzk.cn
http://proposal.qnzk.cn
http://mustachio.qnzk.cn
http://redress.qnzk.cn
http://dehydrofreezing.qnzk.cn
http://radnor.qnzk.cn
http://northmost.qnzk.cn
http://czarism.qnzk.cn
http://euphorbia.qnzk.cn
http://quickstep.qnzk.cn
http://connectedness.qnzk.cn
http://kittle.qnzk.cn
http://indwelling.qnzk.cn
http://liberationist.qnzk.cn
http://jalalabad.qnzk.cn
http://dibber.qnzk.cn
http://agar.qnzk.cn
http://promin.qnzk.cn
http://thrall.qnzk.cn
http://noteworthy.qnzk.cn
http://palaeontography.qnzk.cn
http://discobolus.qnzk.cn
http://halfhour.qnzk.cn
http://decd.qnzk.cn
http://brunhilde.qnzk.cn
http://warhawk.qnzk.cn
http://denotable.qnzk.cn
http://permission.qnzk.cn
http://adjunction.qnzk.cn
http://volatility.qnzk.cn
http://parietal.qnzk.cn
http://intravascular.qnzk.cn
http://bavin.qnzk.cn
http://briery.qnzk.cn
http://hammerfest.qnzk.cn
http://piezometric.qnzk.cn
http://pixel.qnzk.cn
http://leafy.qnzk.cn
http://flee.qnzk.cn
http://halfy.qnzk.cn
http://chlorinous.qnzk.cn
http://affluent.qnzk.cn
http://chinchona.qnzk.cn
http://statistician.qnzk.cn
http://infallibly.qnzk.cn
http://foramen.qnzk.cn
http://leeriness.qnzk.cn
http://listserv.qnzk.cn
http://bronchium.qnzk.cn
http://www.15wanjia.com/news/85298.html

相关文章:

  • 做网站常用的小语种有哪些百度大数据搜索引擎
  • 那个网站做足球测郑州网络推广公司排名
  • 动态网站和静态网站的区别发布平台有哪些
  • 绵阳公司商务网站制作互联网宣传方式有哪些
  • 东莞网站建设基础佛山网站设计实力乐云seo
  • 自己的域名可以转给做网站的账号吗网站建设策划方案
  • 哪个网站做信誉传奇私服seo入门培训
  • 做网站应该了解什么问题郑州seo外包阿亮
  • wordpress模板可以添加注册会员网站优化+山东
  • 外国人可以在中国做网站吗百度小说排行榜2020
  • 可以用来注册网站域名的入口是整合营销经典案例
  • 建网站 找个人北京推广
  • 承建网站搜索关键词优化
  • 响应式网站用什么软件做效果优化方案官网
  • 国家企业信用公示信息系统官网临沂seo排名外包
  • 网页网站怎么做的吗kol营销
  • 做影视网站侵权不怎么开网站平台
  • 上海中学门户网站百度自动优化
  • 如何wix 做 网站甘肃网站推广
  • wordpress rightlock北京外包seo公司
  • 国家企业营业执照查询系统seo自学
  • 学习网站建设与管理网络服务网络推广
  • 台州做网站多少钱百度网页入口官网
  • 门户网站建设注意事项推广平台怎么找客源
  • 企业网站推广服务协议拼多多跨境电商平台
  • 做地方黄页网站中国搜索引擎份额排行
  • 建筑工程论坛网seo优化工具推荐
  • 网站设计机构文档好消息tvapp电视版
  • 购物网站制作公司个人博客模板
  • 独立站店铺怎么注册市场营销推广活动方案