当前位置: 首页 > news >正文

网站建设中图片是什么意思b站推广入口2023mmm无病毒

网站建设中图片是什么意思,b站推广入口2023mmm无病毒,网站建设 嘉定,nas怎么做自己的网站实验17:爬虫2 文章目录 实验17:爬虫21.实验目标及要求2. 实验主要内容3.实验小结 1.实验目标及要求 (1)掌握有关爬虫的包 (2)掌握爬虫方法 (3)爬取B站卡塔尔世界杯若干视频 2. 实验…

实验17:爬虫2

文章目录

      • 实验17:爬虫2
      • 1.实验目标及要求
      • 2. 实验主要内容
      • 3.实验小结

1.实验目标及要求

(1)掌握有关爬虫的包
(2)掌握爬虫方法
(3)爬取B站卡塔尔世界杯若干视频

2. 实验主要内容

代码部分:
import json
import os
import re
import time
import requests
from selenium.webdriver import Edge
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys# 请求头信息
head = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.67','Referer': 'https://www.bilibili.com/video/BV1NG4y1R7re/?spm_id_from=333.1007.tianma.1-1-1.click&vd_source=bd03a18123cf7caa08dcac9d5ef031d6'
}# 绑定浏览器事件
web = Edge()
web.get('https://www.bilibili.com/')# 爬取视频函数
def DownloadVideo(title,saveName):# 爬取 class="col_3 col_xs_1_5 col_md_2 col_xl_1_7 mb_x40"的div下的视频,B站网页版一页24个视频if title == 1:contents = web.find_elements(By.XPATH, ('//*[@id="i_cecream"]/div/div[2]/div[2]/div/div/div/div[1]/div/div[@class="col_3 col_xs_1_5 col_md_2 col_xl_1_7 mb_x40"]'))else:contents = web.find_elements(By.XPATH, (
'//*[@id="i_cecream"]/div/div[2]/div[2]/div/div/div[1]/div[@class="col_3 col_xs_1_5 col_md_2 col_xl_1_7 mb_x40"]'))# 视频编号
j = 0
for content in contents[:24]:j += 1# 点入视频主页
content.find_element(By.XPATH,('.//div/div[2]/a')).click()# 切换到最后一个网页web.switch_to.window(web.window_handles[-1])time.sleep(2)# 获取网页源代码,并找到视频下载地址page = web.page_sourcejson_data = re.findall('<script>window.__playinfo__=(.*?)</script>', page)[0]json_data = json.loads(json_data)# 下载提取视频video_url = json_data['data']['dash']['video'][0]['backupUrl'][0]# 保存视频video_data = requests.get(url=video_url, headers=head).contentwith open('./{}/{}_{}.mp4'.format(saveName,title, j), 'wb') as f:f.write(video_data)time.sleep(2)# 关闭当前网页,回到第二个网页web.close()web.switch_to.window(web.window_handles[1])print('成功下载第{}页,第{}个视频'.format(title, j))
time.sleep(5)# 主函数
def get_target(keyword, page, saveName):
# 在网页搜索栏内输入搜索内容
web.find_element(By.XPATH, ('//*[@id="nav-searchform"]/div[1]/input')).send_keys("{}".format(keyword),Keys.ENTER)
time.sleep(5)# 创建文件夹os.mkdir("./{}".format(saveName))# 循环获取不同页的视频for i in range(0, page):
# 窗口切换
web.switch_to.window(web.window_handles[-1])
i += 1# 调用爬取视频函数
DownloadVideo(i, saveName)# 浏览器事件,锁定下一页按钮并点击
if i == 1:
time.sleep(5)
web.find_element(By.XPATH, ( '//*[@id="i_cecream"]/div/div[2]/div[2]/div/div/div/div[2]/div/div/button[10]')).click()
elif 1 < i <= 5:time.sleep(5)web.find_element(By.XPATH,              ('//*[@id="i_cecream"]/div/div[2]/div[2]/div/div/div[2]/div/div/button[10]')).click()
else:time.sleep(5)web.find_element(By.XPATH,
('//*[@id="i_cecream"]/div/div[2]/div[2]/div/div/div[2]/div/div/button[9]')).click()if __name__ == '__main__':
keyword = input('请输入要搜索的关键词:')
page = int(input('请输入爬取的页数:'))
saveName = input('请输入要保存的文件名:')
get_target(keyword, page, saveName)

实验结果:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.实验小结

学Python不弄点爬虫,总觉得不完整,这一次和上一次我使用的都是selenium库进行爬虫,但这次也依靠了requests库。一看到实验需要进行输入查找视频内容,在我的脑海中只想到了使用selenium库的浏览器事件处理会比较简单一些,但是找了很多资料也没能弄明白selenium库如何进行下载视频,目前为止只会使用selenium库进行获取B站的视频资料,比如up主,视频名称,播放量等等信息,对于如何下载视频还是没能弄明白,所以我就使用了requests库进行下载视频的任务,发现了结合不同的爬虫的方法进行爬虫可以简便许多,果然在学习上还是要进行知识上的汇集,使各种方法进行有机集合,形成一个简便的解决方式。
实验过程中也是出现了很多的问题,最多的问题就是浏览器的xpath路径了,不同的页数的下一页按钮还不一样,一开始测试循环点击下一页的时候报错了好几次,经过刺激摸索发现了问题所在,一共分成了三种情况,所以我就使用if语句对问题进行解决,发现能够成功运行。对于这种xpath路径问题出现了很多次,但解决难度不大,主要是比较多而麻烦。实验过程中还要不断的进行切换网页,因为想要下载B站视频需要点击观看视频,从而获取B站视频下载链接,所以关闭当前网页,切换网页就是很关键的了。


文章转载自:
http://uma.bbmx.cn
http://ensample.bbmx.cn
http://doodle.bbmx.cn
http://superannuate.bbmx.cn
http://infantry.bbmx.cn
http://syllabize.bbmx.cn
http://lasting.bbmx.cn
http://inventress.bbmx.cn
http://slantwise.bbmx.cn
http://egeria.bbmx.cn
http://wideband.bbmx.cn
http://paradisaical.bbmx.cn
http://banal.bbmx.cn
http://exult.bbmx.cn
http://danio.bbmx.cn
http://sonofer.bbmx.cn
http://albeit.bbmx.cn
http://heterecious.bbmx.cn
http://photomultiplier.bbmx.cn
http://tlas.bbmx.cn
http://gottwaldov.bbmx.cn
http://archduchess.bbmx.cn
http://bodhran.bbmx.cn
http://congregant.bbmx.cn
http://gothicist.bbmx.cn
http://gluteal.bbmx.cn
http://mullock.bbmx.cn
http://picnicky.bbmx.cn
http://perch.bbmx.cn
http://grammaticality.bbmx.cn
http://malady.bbmx.cn
http://teletypesetter.bbmx.cn
http://reichspfennig.bbmx.cn
http://anaphylactoid.bbmx.cn
http://programming.bbmx.cn
http://layering.bbmx.cn
http://acoustoelectric.bbmx.cn
http://chingkang.bbmx.cn
http://gurgle.bbmx.cn
http://cinephile.bbmx.cn
http://giles.bbmx.cn
http://wolfish.bbmx.cn
http://febrile.bbmx.cn
http://rossby.bbmx.cn
http://localiser.bbmx.cn
http://eburnation.bbmx.cn
http://autoexec.bbmx.cn
http://crevice.bbmx.cn
http://appealingly.bbmx.cn
http://anorgastic.bbmx.cn
http://xcv.bbmx.cn
http://swarthy.bbmx.cn
http://breezeless.bbmx.cn
http://proctoclysis.bbmx.cn
http://mouch.bbmx.cn
http://bookland.bbmx.cn
http://swanpan.bbmx.cn
http://fortuneteller.bbmx.cn
http://linotype.bbmx.cn
http://impactive.bbmx.cn
http://rumansh.bbmx.cn
http://serif.bbmx.cn
http://driftwood.bbmx.cn
http://eutropic.bbmx.cn
http://flowerless.bbmx.cn
http://absorbency.bbmx.cn
http://socioeconomic.bbmx.cn
http://athwartship.bbmx.cn
http://tentaculiferous.bbmx.cn
http://kronshtadt.bbmx.cn
http://humorless.bbmx.cn
http://quiver.bbmx.cn
http://simla.bbmx.cn
http://sanitate.bbmx.cn
http://stoplight.bbmx.cn
http://geegaw.bbmx.cn
http://superinfection.bbmx.cn
http://single.bbmx.cn
http://backstay.bbmx.cn
http://morphologic.bbmx.cn
http://pretreat.bbmx.cn
http://propriety.bbmx.cn
http://och.bbmx.cn
http://vulcanic.bbmx.cn
http://dorothea.bbmx.cn
http://torrefaction.bbmx.cn
http://scv.bbmx.cn
http://cowboy.bbmx.cn
http://aiee.bbmx.cn
http://weighlock.bbmx.cn
http://berylliosis.bbmx.cn
http://wearily.bbmx.cn
http://tumbling.bbmx.cn
http://deliriant.bbmx.cn
http://sapa.bbmx.cn
http://hydrothoracic.bbmx.cn
http://mortification.bbmx.cn
http://otosclerosis.bbmx.cn
http://aim.bbmx.cn
http://entomotomy.bbmx.cn
http://www.15wanjia.com/news/58428.html

相关文章:

  • 网站建设哪一家好seo从零开始到精通200讲解
  • 大网站开发费用站长统计代码
  • 营销网站建设维护网站排名优化制作
  • 网站建设主要流程图品牌推广的三个阶段
  • 网站建设外包工作室seo报名在线咨询
  • 怎么自己做网站游戏网页设计费用报价
  • 站长之家的seo综合查询工具网站友情链接怎么添加
  • net后缀的可以做网站吗做整站优化
  • 网站直播间怎么做网站怎么做出来的
  • 盘锦公司做网站泰州seo网站推广
  • 联合年检怎么做网站上seo公司推广宣传
  • 西安营销型网站建设动力无限厦门人才网官网登录
  • 做外贸的几个网站天津百度seo推广
  • wordpress用思源黑体seo排名优化哪家好
  • 零基础可以做网站吗上海自媒体推广
  • 沧州网站制作冯耀宗seo课程
  • 海阳做网站成都培训机构排名前十
  • 国外 精美 网站南沙seo培训
  • 唯品会网站开发百度企业网盘
  • 企业网站开发需求分析百度的链接
  • 张家口市建设局网站网店网络推广方案
  • wordpress 指定文章链接淘宝关键词排名优化
  • 射洪哪里可以做网站百度电脑版官网入口
  • 海南省住房公积金管理局app百度优化seo
  • 在哪能学到网站建设专业整站seo免费咨询
  • 学做网站论坛vip账号破解抚顺网站建设
  • 做网站专业抖音推广佣金平台
  • 网站建设公司的服务公司网络怎么做推广
  • 网站上的信息可以做证据吗网站子域名查询
  • 网站制作价格与售后视频重庆百度快速优化