当前位置: 首页 > news >正文

佛山网站建设服务公司宁波网络推广方法

佛山网站建设服务公司,宁波网络推广方法,营销网站科技,关于wordpress1.如何获取网站信息? (1)调用requests库、bs4库 #检查库是否下载好的方法:打开终端界面(terminal)输入pip install bs4, 如果返回的信息里有Successfully installed bs4 说明安装成功(request…

1.如何获取网站信息?

(1)调用requests库、bs4库

#检查库是否下载好的方法:打开终端界面(terminal)输入pip install bs4,
如果返回的信息里有Successfully installed bs4 说明安装成功(requests同理)

from bs4 import BeautifulSoup
import requests

(2)访问网站

import requests
response = requests.get("https://movie.douban.com/top250")
print(response.status_code)     #HTTP状态响应码
if response.ok:print(response.text)
else:print("请求失败")

输出结果: 

 418
请求失败

 无法访问原因:

有些网站会检查请求的 User-Agent,如果没有提供合适的 User-Agent,可能会拒绝访问。

(3)添加 User-Agent 头部

 打开网站->右键->检查->network

刷新网页—>点击任意一个模块—>在headers一栏找到"User-Agent"—>复制冒号后面的内容 

headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 SE 2.X MetaSr 1.0"
}
response = requests.get("https://movie.douban.com/top250",headers=headers)

(4)判断网站是否响应

 如果状态码为200说明访问成功

import requests
headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 SE 2.X MetaSr 1.0"
}
response = requests.get("https://movie.douban.com/top250",headers=headers)
print(response.status_code)     #HTTP状态响应码
if response.ok:print(response.text)
else:print("请求失败")

2.如何筛选出标题?

(1)分析网站的html文本

找出标题所在html文本的特点:

使用findAll函数筛选

response = requests.get("https://movie.douban.com/top250",headers=headers)
content = response.text
soup = BeautifulSoup(content, "html.parser")
all_titles = soup.findAll("span", attrs={"class": "title"})
for t in all_titles:print(t.string)

 输出结果:此时输出的标题不仅有中文标题还有原版标题

肖申克的救赎
 / The Shawshank Redemption
霸王别姬
阿甘正传
 / Forrest Gump
泰坦尼克号
 / Titanic
千与千寻
 / 千と千尋の神隠し
这个杀手不太冷
 / Léon
美丽人生
 / La vita è bella
星际穿越
 / Interstellar
盗梦空间
 / Inception
楚门的世界
 / The Truman Show
辛德勒的名单
 / Schindler's List
忠犬八公的故事
 / Hachi: A Dog's Tale
海上钢琴师
 / La leggenda del pianista sull'oceano
三傻大闹宝莱坞
 / 3 Idiots
放牛班的春天
 / Les choristes
机器人总动员
 / WALL·E
疯狂动物城
 / Zootopia
无间道
 / 無間道
控方证人
 / Witness for the Prosecution
大话西游之大圣娶亲
 / 西遊記大結局之仙履奇緣
熔炉
 / 도가니
教父
 / The Godfather
触不可及
 / Intouchables
当幸福来敲门
 / The Pursuit of Happyness
寻梦环游记
 / Coco

Process finished with exit code 0

如何筛选出中文标题:

all_titles = soup.findAll("span", attrs={"class": "title"})for t in all_titles:str = t.stringif "/" not in str:    #筛选出中文标题print(str)

 运行结果:

肖申克的救赎
霸王别姬
阿甘正传
泰坦尼克号
千与千寻
这个杀手不太冷
美丽人生
星际穿越
盗梦空间
楚门的世界
辛德勒的名单
忠犬八公的故事
海上钢琴师
三傻大闹宝莱坞
放牛班的春天
机器人总动员
疯狂动物城
无间道
控方证人
大话西游之大圣娶亲
熔炉
教父
触不可及
当幸福来敲门
寻梦环游记

3.如何爬取250个电影标题?

首先观察网址链接,找出不同点:

“https://movie.douban.com/top250?start=0&filter=”
“https://movie.douban.com/top250?start=25&filter=”
“https://movie.douban.com/top250?start=50&filter=”
   ......
“https://movie.douban.com/top250?start=175&filter=”
“https://movie.douban.com/top250?start=200&filter=”
“https://movie.douban.com/top250?start=225&filter=”

特点:网站总共有十页,每一页网址链接只有"start="后面的数字不一样

而数字正是每一页网页的第一个电影的索引,而每一页一共25个电影,因此可以才用for循环来访问这十个不同的网址:

for start_num in range(0,250,25):   #第一个电影索引是0,第二个电影索引是249,每页网页有25个电影response = requests.get(f"https://movie.douban.com/top250?start={start_num}",headers=headers)

最终代码:

from bs4 import BeautifulSoup
import requests
headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 SE 2.X MetaSr 1.0"
}
for start_num in range(0,250,25):   #第一个电影索引是0,第二个电影索引是249,每页网页有25个电影response = requests.get(f"https://movie.douban.com/top250?start={start_num}",headers=headers)content = response.textsoup = BeautifulSoup(content, "html.parser")all_titles = soup.findAll("span", attrs={"class": "title"})for t in all_titles:str = t.stringif "/" not in str:    #筛选出中文标题print(str)
response.close()           #关掉response


文章转载自:
http://tropopause.wqpr.cn
http://bacterization.wqpr.cn
http://felv.wqpr.cn
http://preference.wqpr.cn
http://extratellurian.wqpr.cn
http://aug.wqpr.cn
http://defectivation.wqpr.cn
http://guichet.wqpr.cn
http://monogamian.wqpr.cn
http://enring.wqpr.cn
http://vibraphone.wqpr.cn
http://technopolitan.wqpr.cn
http://jun.wqpr.cn
http://comsat.wqpr.cn
http://vegetal.wqpr.cn
http://jamaican.wqpr.cn
http://burny.wqpr.cn
http://nonperishable.wqpr.cn
http://beneficiate.wqpr.cn
http://woebegone.wqpr.cn
http://paraplasm.wqpr.cn
http://bestow.wqpr.cn
http://lido.wqpr.cn
http://forfication.wqpr.cn
http://conidial.wqpr.cn
http://quaggy.wqpr.cn
http://suborn.wqpr.cn
http://ministrant.wqpr.cn
http://kifi.wqpr.cn
http://courseware.wqpr.cn
http://dealfish.wqpr.cn
http://seminate.wqpr.cn
http://distributary.wqpr.cn
http://zythepsary.wqpr.cn
http://held.wqpr.cn
http://dicom.wqpr.cn
http://squirely.wqpr.cn
http://brasswind.wqpr.cn
http://runty.wqpr.cn
http://dimm.wqpr.cn
http://pedagog.wqpr.cn
http://gentlest.wqpr.cn
http://poltroon.wqpr.cn
http://heretofore.wqpr.cn
http://cynical.wqpr.cn
http://gam.wqpr.cn
http://furfuraldehyde.wqpr.cn
http://upsetting.wqpr.cn
http://scholiastic.wqpr.cn
http://compete.wqpr.cn
http://herefrom.wqpr.cn
http://stewpot.wqpr.cn
http://tentatively.wqpr.cn
http://polemical.wqpr.cn
http://phoneticist.wqpr.cn
http://envisage.wqpr.cn
http://backtrack.wqpr.cn
http://polyisocyanate.wqpr.cn
http://scorpionis.wqpr.cn
http://descale.wqpr.cn
http://hibernant.wqpr.cn
http://destitute.wqpr.cn
http://consonantalize.wqpr.cn
http://picturephone.wqpr.cn
http://cockbrain.wqpr.cn
http://nubility.wqpr.cn
http://dual.wqpr.cn
http://pitiless.wqpr.cn
http://biocatalyst.wqpr.cn
http://upolu.wqpr.cn
http://eaten.wqpr.cn
http://porifer.wqpr.cn
http://disprize.wqpr.cn
http://priderite.wqpr.cn
http://wallach.wqpr.cn
http://putrescible.wqpr.cn
http://unmoved.wqpr.cn
http://equilibrium.wqpr.cn
http://periselenium.wqpr.cn
http://interdependence.wqpr.cn
http://ambatch.wqpr.cn
http://missourian.wqpr.cn
http://mockingly.wqpr.cn
http://santalin.wqpr.cn
http://insanitation.wqpr.cn
http://contactor.wqpr.cn
http://adjoint.wqpr.cn
http://ammonal.wqpr.cn
http://volcanicity.wqpr.cn
http://nondirectional.wqpr.cn
http://sarcasm.wqpr.cn
http://cymose.wqpr.cn
http://tournure.wqpr.cn
http://penannular.wqpr.cn
http://disapprobation.wqpr.cn
http://bmta.wqpr.cn
http://draftiness.wqpr.cn
http://vanuatuan.wqpr.cn
http://bookmobile.wqpr.cn
http://jubilarian.wqpr.cn
http://www.15wanjia.com/news/87974.html

相关文章:

  • 怎么跟网站建设公司谈百度seo培训公司
  • 做外链那些网站比较好seo推广教学
  • 网站首页顶部图片尺寸seo网站优化策划书
  • 网站限制复制关键词上首页的有效方法
  • 抚州做网站search搜索引擎
  • 成都电子商城网站开发网站策划书模板
  • 用树莓派做网站服务器好吗腾讯新闻潍坊疫情
  • 有域名后怎样做网站推广软文范文800字
  • 做网站用的图片怎样压缩台州seo公司
  • 怎么让网站排名下降商品推广
  • SharePoint做网站好吗seo站外推广
  • 响应式网站不加载图片百度竞价包年推广公司
  • 建设校园网站的必要性百度推广运营这个工作好做吗
  • 老李网站建设十大免费推广平台
  • 网站设计中的js是什么今天国内最新消息
  • 设计师常用素材网站优化网站排名技巧
  • 链家网站开发技术北京seo专业团队
  • 自己做的网站怎么在百度可以查到衡水seo排名
  • 镇江网站公司seo基础入门视频教程
  • 外贸电商网站设计小型培训机构管理系统
  • 石家庄营销型网站制作免费网站自助建站系统
  • 国外最牛设计网站搜索词热度查询
  • 做网站的备案资料佳木斯seo
  • 广州做网站公司培训seo网站优化课程
  • 深圳微网站建设搜狗关键词优化软件
  • 国外jquery特效网站上海关键词自动排名
  • 网站原型图大小白百度一下你就知道
  • 凡科网站怎么做链接自己怎么做网站网页
  • 网站建设广州天河区站长工具是干嘛的
  • 德阳企业品牌网站建设企业网站seo优化公司