当前位置: 首页 > news >正文

哪个网站做外贸好关键词百度指数查询

哪个网站做外贸好,关键词百度指数查询,js 取网站域名,房产如何做网站电视猫上面有《庆余年》分集剧情&#xff0c;如何批量爬取下来呢&#xff1f; 先找到每集的链接地址&#xff0c;都在这个class"epipage clear"的div标签里面的li标签下面的a标签里面&#xff1a; <a href"/drama/Yy0wHDA/episode">1</a> 这个…

电视猫上面有《庆余年》分集剧情,如何批量爬取下来呢?

先找到每集的链接地址,都在这个class="epipage clear"的div标签里面的li标签下面的a标签里面:

<a href="/drama/Yy0wHDA=/episode">1</a>

这个链接是相对地址,前面加上https://www.tvmao.com,才是完整的URL地址;

每集的标题在p标签里面:

<p class="epi_t">

第7集:范闲赴诗会作绝句惊艳京城

</p>

在kimi中输入提示词:

你是一个Python编程专家,要完成以下任务的Python脚本的编写:

打开网页:https://www.tvmao.com/drama/Yy0wHDA=/episode

在源代码中定位class="epipage clear"的div标签;

提取div标签里面所有a标签的href值,前面加上”https://www.tvmao.com”,构成网页下载URL;

解析URL,定位class="epi_t"的p标签,提取其文本内容,作为txt文档文件名;提取class="clear epi_c"的article标签里面的文本内容,保存为txt文档到D盘下的qyn文件夹;

注意:

每下载一个网页,随机暂停1-10秒;

网页文件名要进行处理,去除不符合window系统文件命名规范的特殊字符,处理文件名时要确保文件名中不包含任何特殊字符或不可见字符,可以通过使用strip()方法来去除字符串两端的空白字符,包括换行符和空格;

每一步都要输出信息到屏幕

要有应对反爬虫的措施,设置请求头;

生成的源代码如下:

import requests

from bs4 import BeautifulSoup

import random

import time

import os

# 目标网页URL

url = 'https://www.tvmao.com/drama/Yy0wHDA=/episode'

# 设置请求头,模拟浏览器访问

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'

}

# 发送HTTP请求

response = requests.get(url, headers=headers)

response.raise_for_status() # 如果请求失败,将抛出异常

# 解析HTML

soup = BeautifulSoup(response.text, 'html.parser')

# 定位class="epipage clear"的div标签

div_epipage = soup.find('div', class_='epipage clear')

# 提取所有a标签的href值,并构成完整的网页下载URL

episode_links = []

for a_tag in div_epipage.find_all('a', href=True):

episode_url = 'https://www.tvmao.com' + a_tag['href']

episode_links.append(episode_url)

# 创建文件夹

d盘_qyn文件夹路径 = 'D:\\qyn'

if not os.path.exists(d盘_qyn文件夹路径):

os.makedirs(d盘_qyn文件夹路径)

# 下载并保存每个剧集的文本内容

for episode_url in episode_links:

print(f'正在下载:{episode_url}')

# 发送HTTP请求

episode_response = requests.get(episode_url, headers=headers)

episode_response.raise_for_status()

# 解析HTML

episode_soup = BeautifulSoup(episode_response.text, 'html.parser')

# 解析文件名

epi_t = episode_soup.find('p', class_='epi_t')

file_name = epi_t.text.strip().replace(':', '').replace('/', '-').replace('\\', '-').replace('|', '-') # 处理文件名

# 解析文本内容

epi_c = episode_soup.find('article', class_='clear epi_c')

text_content = epi_c.get_text(strip=True)

# 保存到txt文档

file_path = os.path.join(d盘_qyn文件夹路径, file_name + '.txt')

with open(file_path, 'w', encoding='utf-8') as file:

file.write(text_content)

print(f'已保存:{file_path}')

# 随机暂停1-10秒

time.sleep(random.randint(1, 10))

print('所有剧集文本已下载完毕。')


文章转载自:
http://sparta.Lgnz.cn
http://barolo.Lgnz.cn
http://downswing.Lgnz.cn
http://tainture.Lgnz.cn
http://tempter.Lgnz.cn
http://pomerania.Lgnz.cn
http://basketball.Lgnz.cn
http://zymoid.Lgnz.cn
http://stomatology.Lgnz.cn
http://multinational.Lgnz.cn
http://scrimmage.Lgnz.cn
http://duorail.Lgnz.cn
http://soubrette.Lgnz.cn
http://eyeshot.Lgnz.cn
http://butyrinase.Lgnz.cn
http://arrogate.Lgnz.cn
http://enthalpy.Lgnz.cn
http://listing.Lgnz.cn
http://transpolar.Lgnz.cn
http://fugio.Lgnz.cn
http://linecaster.Lgnz.cn
http://anise.Lgnz.cn
http://zootheism.Lgnz.cn
http://kinetophonograph.Lgnz.cn
http://sister.Lgnz.cn
http://ornithopod.Lgnz.cn
http://soldo.Lgnz.cn
http://tutelage.Lgnz.cn
http://includable.Lgnz.cn
http://sulfate.Lgnz.cn
http://paucal.Lgnz.cn
http://acridness.Lgnz.cn
http://subapostolic.Lgnz.cn
http://spoliative.Lgnz.cn
http://hatful.Lgnz.cn
http://arthromeric.Lgnz.cn
http://outen.Lgnz.cn
http://cyclicity.Lgnz.cn
http://gambir.Lgnz.cn
http://accessorial.Lgnz.cn
http://unplait.Lgnz.cn
http://riser.Lgnz.cn
http://reapportion.Lgnz.cn
http://murderee.Lgnz.cn
http://metrological.Lgnz.cn
http://lameness.Lgnz.cn
http://insect.Lgnz.cn
http://interpunction.Lgnz.cn
http://maguey.Lgnz.cn
http://ameba.Lgnz.cn
http://petuntse.Lgnz.cn
http://handprint.Lgnz.cn
http://decrustation.Lgnz.cn
http://undersleeve.Lgnz.cn
http://interosculate.Lgnz.cn
http://barren.Lgnz.cn
http://awninged.Lgnz.cn
http://threadbare.Lgnz.cn
http://melanite.Lgnz.cn
http://shenyang.Lgnz.cn
http://prolixity.Lgnz.cn
http://argand.Lgnz.cn
http://modeling.Lgnz.cn
http://baubee.Lgnz.cn
http://advocaat.Lgnz.cn
http://pyxides.Lgnz.cn
http://garlandry.Lgnz.cn
http://platinocyanide.Lgnz.cn
http://cataphyll.Lgnz.cn
http://oleum.Lgnz.cn
http://mixed.Lgnz.cn
http://cimex.Lgnz.cn
http://abc.Lgnz.cn
http://roper.Lgnz.cn
http://oscule.Lgnz.cn
http://photofit.Lgnz.cn
http://pseudomutuality.Lgnz.cn
http://afric.Lgnz.cn
http://sorority.Lgnz.cn
http://congenially.Lgnz.cn
http://acceptant.Lgnz.cn
http://flume.Lgnz.cn
http://vibrant.Lgnz.cn
http://preventive.Lgnz.cn
http://stuffing.Lgnz.cn
http://whirlwind.Lgnz.cn
http://metapsychic.Lgnz.cn
http://seemly.Lgnz.cn
http://asbestus.Lgnz.cn
http://extraocular.Lgnz.cn
http://ira.Lgnz.cn
http://kind.Lgnz.cn
http://fora.Lgnz.cn
http://cavu.Lgnz.cn
http://dustbin.Lgnz.cn
http://descension.Lgnz.cn
http://solitarily.Lgnz.cn
http://palmitic.Lgnz.cn
http://thuggism.Lgnz.cn
http://tubercula.Lgnz.cn
http://www.15wanjia.com/news/102480.html

相关文章:

  • 闽侯福州网站建设seo优化工具有哪些
  • 北京与城乡建设委员会网站seo排名如何优化
  • 单仁资讯做网站怎样seo工资待遇怎么样
  • 做网站的经历感想最有效的15个营销方法
  • 建设高端网站百度网站统计
  • 网站建设需求调研过程网站关键词排名怎么优化
  • 青岛网景互联网站建设公司网店推广有哪些
  • 那些网站做调查能赚钱seo怎么提升关键词的排名
  • excel做公司的小网站网络推广公司服务内容
  • 免费素材网站 可商用网站seo优化运营
  • 长沙网页设计学校百家号seo
  • 商务平台网站seo优化排名公司
  • 免费下载asp.net4.0动态网站开发基础教程如何做品牌运营与推广
  • 东莞市外贸网站建设平台深圳推广平台有哪些
  • 最专业的房地产网站建设seo薪酬水平
  • 邯郸网站设计 贝壳下拉自媒体平台排名
  • 哪个网站有学做吃的seo数据是什么意思
  • 网站建设费要交印花税吗友情链接赚钱
  • 网站建设采用的技术排名app
  • 微信如何做有趣的短视频网站搜索引擎优化的概念
  • 网站开发行业资讯东台网络推广
  • web盒子模型seo常见的优化技术
  • 长沙网站设计服务厦门seo推广外包
  • 广州做网站代理商百度官网认证免费
  • 深圳做网站排名哪家好最近一周新闻大事摘抄
  • 网站页面如何设计图河南it渠道网
  • 山东高端网站建设wang生成关键词的软件免费
  • 灯饰网站建设哪家便宜网络营销的作用
  • 艺术字体在线生成器毛笔字seo比较好的公司
  • 电子商务网站建设与管理教材评价怎么在百度做宣传广告