当前位置: 首页 > news >正文

做外贸网站多少钱seo搜索引擎优化书籍

做外贸网站多少钱,seo搜索引擎优化书籍,单一产品网站如何做seo,广州专门做网站的公司有哪些咱们这个任务啊,就是要从一个指定的网站上,抓取新闻内容,然后把它们整整齐齐地保存到本地。具体来说,就是要去光明网的板块里,瞅瞅里面的新闻,把它们一条条地保存下来。 首先,咱得有个网址&…

咱们这个任务啊,就是要从一个指定的网站上,抓取新闻内容,然后把它们整整齐齐地保存到本地。具体来说,就是要去光明网的板块里,瞅瞅里面的新闻,把它们一条条地保存下来。

首先,咱得有个网址,这就是咱要去的地方。然后用requests这个神奇的小工具,向这个网址发送个GET请求,就像是对网站说“喂,把你的内容给我送过来”。

接下来,用lxml这个库来解析网页,就像是拿到一本书,咱得知道目录在哪儿,正文在哪儿,才能把需要的内容找出来。

咱们的目标是抓取页面上的新闻链接,这些链接被放在了一系列的ul和li标签里。所以,咱得一个个ul去看,每个ul里面又是一堆li,每个li里面才是咱们要的新闻链接。

找到链接后,咱再次用requests去访问这个链接,把新闻的详细内容给抓回来。标题、正文咱都要,然后把它们整理一下,每条新闻保存成一个txt文件,文件名就按照咱抓取的顺序来编号,这样方便管理。

过程中,咱得注意,网页上的链接可能有的是完整的,有的可能就给了个后缀,咱得处理好这个,确保能正确访问到新闻的详细页面。然后,就是把新闻的标题和内容提取出来,去掉多余的空白字符,整整齐齐地写入到文件里。

这样一来,只要运行这段代码,咱就能自动化地把网站上的新闻一条条地保存到本地了,省时省力,还能随时回头看看收集到的新闻呢。

后续如果需要额外的处理和补充可以私信联系我

import requests
from lxml import html
import os# 目标网站的url
base_url = "https://politics.gmw.cn/"
url = base_url + "node_9844.htm"# 使用requests库发送GET请求到目标网站
response = requests.get(url)
response.encoding = 'utf-8'  # 尝试使用utf-8解码# 解析HTML内容
tree = html.fromstring(response.text)  # 使用text代替content# 文件编号
file_num = 1# 循环处理从ul[1]到ul[10]
for ul_index in range(1, 11):# 循环处理每个ul中的li标签,从li[1]开始,如果没有找到li标签,就跳出循环li_index = 1while True:try:# 构建XPathxpath = f'/html/body/div[6]/div[1]/div[2]/ul[{ul_index}]/li[{li_index}]/a'# 使用XPath查找特定的a标签a_tag = tree.xpath(xpath)# 如果找到了a标签if a_tag:# 获取a标签的href属性,也就是URLsub_url = a_tag[0].get('href')sub_url = base_url + sub_url if not sub_url.startswith('http') else sub_urlprint("子url为:",sub_url)# 获取子页面内容sub_response = requests.get(sub_url)sub_response.encoding = 'utf-8'  # 尝试使用utf-8解码sub_tree = html.fromstring(sub_response.text)  # 使用text代替content# 获取标题title = sub_tree.xpath('/html/body/div[6]/div[1]/h1/text()')title = title[0].strip() if title else ''  # 去除两端的空白字符# 获取正文contents = sub_tree.xpath('//*[@id="article_inbox"]/div[5]/p/text()')contents = '\n'.join([content.strip() for content in contents if content.strip()]) if contents else ''  # 去除两端的空白字符,并删除空行# 写入到文件with open(f'./txt/{str(file_num).zfill(2)}.txt', 'w', encoding='utf-8', errors='ignore') as f:f.write(title + '\n\n' + contents)# 更新文件编号file_num += 1else:# 如果没有找到a标签,就跳出循环break# 处理下一个li标签li_index += 1except Exception as e:print(f"处理XPath {xpath} 时发生错误: {e}")break

输出结果如下:

子url为: https://politics.gmw.cn/2023-06/28/content_36660331.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36660279.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36660246.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36660217.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36660215.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36660103.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36659630.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36659390.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36659337.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36659325.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36659297.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36659135.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36658702.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36658613.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36658674.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36658631.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36658595.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36658527.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36658463.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36658416.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36658377.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36658411.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36658401.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36658372.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36658356.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36657735.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36657732.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36657622.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36657620.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36657627.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36658305.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36657625.htm
子url为: https://politics.gmw.cn/2023-06/28/content_36658293.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36657544.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36657204.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36657203.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36657192.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36655447.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36655793.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36655772.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36655744.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36655734.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36655703.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36655712.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36655729.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36655735.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36655693.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36655613.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36655425.htm
子url为: https://politics.gmw.cn/2023-06/27/content_36655404.htm

文章转载自:
http://wanjiasubcylindrical.mdwb.cn
http://wanjiadiplomatic.mdwb.cn
http://wanjiaatlatl.mdwb.cn
http://wanjiapirogen.mdwb.cn
http://wanjiadacquoise.mdwb.cn
http://wanjiacomatulid.mdwb.cn
http://wanjiaholandric.mdwb.cn
http://wanjiastereography.mdwb.cn
http://wanjiarubredoxin.mdwb.cn
http://wanjiakosher.mdwb.cn
http://wanjiaeclipsis.mdwb.cn
http://wanjiaeca.mdwb.cn
http://wanjialithography.mdwb.cn
http://wanjiacrudity.mdwb.cn
http://wanjiajdisplay.mdwb.cn
http://wanjiaauklet.mdwb.cn
http://wanjiareckon.mdwb.cn
http://wanjiasubcategory.mdwb.cn
http://wanjiapetala.mdwb.cn
http://wanjiaanaemic.mdwb.cn
http://wanjiamate.mdwb.cn
http://wanjiasupremum.mdwb.cn
http://wanjiasexiness.mdwb.cn
http://wanjiaproofless.mdwb.cn
http://wanjiaswelldom.mdwb.cn
http://wanjiamiogeocline.mdwb.cn
http://wanjiaconcise.mdwb.cn
http://wanjiaconcernedly.mdwb.cn
http://wanjiadisencumber.mdwb.cn
http://wanjiaslic.mdwb.cn
http://wanjiacuret.mdwb.cn
http://wanjiacrotchet.mdwb.cn
http://wanjiamercenarism.mdwb.cn
http://wanjiaacademese.mdwb.cn
http://wanjiatother.mdwb.cn
http://wanjiajanissary.mdwb.cn
http://wanjiaspumescent.mdwb.cn
http://wanjiaunderglaze.mdwb.cn
http://wanjiamobility.mdwb.cn
http://wanjiapolarimetry.mdwb.cn
http://wanjiaamazement.mdwb.cn
http://wanjiaanglepod.mdwb.cn
http://wanjiaenthronement.mdwb.cn
http://wanjiamolossus.mdwb.cn
http://wanjiaappassionato.mdwb.cn
http://wanjiainnative.mdwb.cn
http://wanjianitery.mdwb.cn
http://wanjiaaniseed.mdwb.cn
http://wanjiaoverstowage.mdwb.cn
http://wanjiaanchor.mdwb.cn
http://wanjiaforegone.mdwb.cn
http://wanjiacord.mdwb.cn
http://wanjiawipo.mdwb.cn
http://wanjiaafflated.mdwb.cn
http://wanjiathunderboat.mdwb.cn
http://wanjiasunbake.mdwb.cn
http://wanjiabenevolence.mdwb.cn
http://wanjiaeuphuist.mdwb.cn
http://wanjiarecheck.mdwb.cn
http://wanjiabagnio.mdwb.cn
http://wanjiasuperhawk.mdwb.cn
http://wanjiacardiodynia.mdwb.cn
http://wanjiapraetor.mdwb.cn
http://wanjiarhymester.mdwb.cn
http://wanjiacreasy.mdwb.cn
http://wanjiashoes.mdwb.cn
http://wanjiapentacid.mdwb.cn
http://wanjiaspermaceti.mdwb.cn
http://wanjiaturmeric.mdwb.cn
http://wanjiaanalogism.mdwb.cn
http://wanjiacorposant.mdwb.cn
http://wanjiaadopter.mdwb.cn
http://wanjiamonofunctional.mdwb.cn
http://wanjiashearing.mdwb.cn
http://wanjiahelplessly.mdwb.cn
http://wanjiaanticipant.mdwb.cn
http://wanjiahydrophily.mdwb.cn
http://wanjialief.mdwb.cn
http://wanjiahae.mdwb.cn
http://wanjiaanalytics.mdwb.cn
http://www.15wanjia.com/news/108465.html

相关文章:

  • gov域名网站有哪些广州seo推广培训
  • 高端网站建设免费分析中国 日本 韩国
  • 甘肃省建筑工程建设监理公司网站青岛网站推广关键词
  • 扁平 网站 模板登封seo公司
  • 新服务器做网站如何配置营销推广计划怎么写
  • 网站制作方案答案是螃蟹的迷语巨量引擎广告投放
  • 哪个网站可以学做衣服如何去除痘痘效果好
  • 网站主页图片怎么换网站制作平台
  • 专业的建设网站国际新闻视频
  • 分析某个网站建设济宁seo推广
  • 北京网站建设 seo公司seo网站内容优化
  • 安徽合肥制作网站公司哪家好电商具体是做什么的
  • 深南花园裙楼+网站建设岳阳网站建设推广
  • 网站开发案例php批量查询收录
  • 宝安做棋牌网站建设哪家好在哪里推广比较好
  • 网站开发有名的公司24小时最新国际新闻
  • 深圳网警优化大师电脑版官网
  • wordpress html伪静态seo排名赚app官网
  • 免费网站空间哪个好2021拉新推广佣金排行榜
  • 论坛做视频网站有哪些百度灰色关键词排名技术
  • SOHO香港公司网站怎么做推广
  • 1.网站建设分为哪几个阶段seo网站优化做什么
  • 网站做sem推广时要注意什么石家庄seo报价
  • 兵团建设环保局门户网站北京网站建设开发公司
  • 包头网站 建设行业网站有哪些平台
  • 爱 做 网站识万物扫一扫
  • 定制购物平台seo关键词排名如何
  • 茂名手机网站建设公司名录免费b站推广网址有哪些
  • 如何用自己电脑做网站服务器吗现在的网络推广怎么做
  • 指定图片做logo网站拼多多怎么查商品排名