当前位置: 首页 > news >正文

北京网站建设认知制造业中小微企业

北京网站建设认知,制造业中小微企业,福州mip网站建设,建设工程信息网c证查询首先说一下这节内容在学习过程中存在的问题吧,在爬取百度网页文字时,出现了问题,就是通过表达式在网页搜索中可以定位,但是通过代码无法定位,请教了一位老师,他说是动态链接,目前这部分内容比较…

        首先说一下这节内容在学习过程中存在的问题吧,在爬取百度网页文字时,出现了问题,就是通过表达式在网页搜索中可以定位,但是通过代码无法定位,请教了一位老师,他说是动态链接,目前这部分内容比较陌生,还没有学习到,因此过一段时间在进行补充验证。我一般在学习时都是通过复现作者所写的代码,然后在进行扩展,最后结合网上的思路编写一个想读复杂的案例。

1、实例化etree对象

1.1 etree.parse('HTML文档路径') 使用patse()函数对etree进行实例化(已经验证)

1.2 etree.HTML('网页源码') 使用patse()函数对etree进行实例化(已经验证)

2、用XPath表达式定位标签并提取数据(动态参数存在问题,爬取静态类没有问题)参考文中代码

2.1 定位标签 2.1.1 标签名定位

2.1.2 索引定位

2.1.3 属性定位

2.1.4 逻辑也能算定位

2.2 提取文本内容和属性值

3、快速获取标签节点的Xpath表达式(已经验证)

##############################
##作者:白雪公主的后妈
##时间:2024年1月6日
##主题:Python爬虫基础——Xpath表达式
##主要内容:学习BeaytifulSoup对象中的lxml模块中的etree类,即etree类可以将网页源码实例化为一个etree对象,并shiyongXpanth表达式进行标签定位
###############################1、实例化etree对象
#要使用Xpanth表达式进行数据解析,首先需要实例化一个etree对象,具体方法有两种
#1.1    etree.parse('HTML文档路径')     使用patse()函数对etree进行实例化
# from lxml import etree
# html = etree.parse('text1.html')        #将HTML文档加载到etree类中,实例化成为一个名为html的etree对象
# #1.2    etree.HTML('网页源码')     使用patse()函数对etree进行实例化
# from lxml import etree
# import requests
# #身份码伪装
# header = {"User-Agent":"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Mobile Safari/537.36 Edg/131.0.0.0"}        #浏览器身份验证
# #请求的地址
# url = "https://www.baidu.com"
# #发起请求,并获得网页源代码
# response = requests.get(url,headers=header).text
# html = etree.HTML(response)        #将网页源码加载到etree类中,实例化成为一个名为html的etree对象#2、用XPath表达式定位标签并提取数据
#完成etree对象实例化后,可以使用XPath表达式定位标签并提取数据了
#2.1 定位标签
#2.1.1 标签名定位
'''
假设要定位<ul>标签下的所有<li>标签节点,在途中从上往下依次是<html>标签节点——><div>标签节点2——>
<ul>标签节点2——><li>标签节点1、<li>标签节点2。注意用“/”表示一个层次,用“//”表示多个层次,因此,
上述路径XPath可以表示为“/html/body/div[1]/ul/il”。如果不加分区的定义所有的<li>标签,也可以用"//"。
'''
#2.1.2 索引定位
'''
etree对象的每一个层阶都是一个包含所有标签节点的列表,如果同一层级中有多个同名的标签节点,
使用列表切片就能定位到所需的标签节点,即通过索引定位。
'''
#2.1.3 属性定位
'''
在复杂的网页中,每个标签都有其属性,此时可以通过属性进行定位。
'''
import requests
from lxml import etree
#身份码伪装
header = {"User-Agent":"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Mobile Safari/537.36 Edg/131.0.0.0"}        #浏览器身份验证
#请求的地址
#url = "https://www.baidu.com"
url = "https://www.hongxiu.com/chapter/30300190804146407/81349808731782632"
#发起请求,并获得网页源代码
response = requests.get(url,headers=header).text
# print(response)
html=etree.HTML(response)     #实例化etree对象
# print(html)print(html.xpath('//*[@id="chapter-81349808731782632"]/div/div[2]/div/p'))
#(html.xpath('//*[@id="hotsearch-content-wrapper"]/text()'))            #?????百度这里是动态链接书上给给到的这个方法有问题
# print(html.xpath('//*[@class="title"'))             #用class属性定位标签
'''
"//"表示多层级,处于Xpath表达式的开头代表从任意层级开始定位;“*”代表任意标签;"[@class="title"代表class属性值为"title"
的任意标签。如果拥有同一个class属性的标签不止一个,可以考虑用id属性值来定位。如果还不能达到目的,可以用其他属性来定位,也
可以将上述XPath表达式中的“*”替换为指定的标签名称,如html.xpath('//p[@class="title"')
'''
#2.1.4 逻辑也能算定位
'''
使用上述方法仍然不能定位,可以配合逻辑运算来进行更精确的定位。
'''
# html.xpath('//p[@class="title" and @name="color"]')
# html.xpath('//p[@class="title" or @name="color"]')
#2.2 提取文本内容和属性值
'''
定位到标签节点后,可在Xpath表达中后面添加“/text”来提取该节点下的所有文本内容,添加“text()”来提取该节点的所有文本内容,
添加“/@属性名”来提取该节点的指定属性值
'''
# html.xpath('//*[@class="title"]/text()')
# html.xpath('//*[@class="title"]//text()')
# html.xpath('//*[@class="title"]/@id')
#3、快速获取标签节点的Xpath表达式
'''
在谷歌浏览器中打开一个网页,然后打开开发者工具,在“Elements”选项卡中的网页源码中邮寄要获取的表达式的标签,
选择copy——>copy xpath即可赋值XPath表达式粘贴到爬虫程序中
'''


文章转载自:
http://dietary.xzLp.cn
http://cuisse.xzLp.cn
http://pycnocline.xzLp.cn
http://despotic.xzLp.cn
http://pericranium.xzLp.cn
http://disconnected.xzLp.cn
http://uncreative.xzLp.cn
http://liquidator.xzLp.cn
http://banditi.xzLp.cn
http://symmetrization.xzLp.cn
http://defection.xzLp.cn
http://delomorphic.xzLp.cn
http://tumidness.xzLp.cn
http://unsisterly.xzLp.cn
http://orison.xzLp.cn
http://vachel.xzLp.cn
http://feebly.xzLp.cn
http://vincristine.xzLp.cn
http://presidio.xzLp.cn
http://bladdery.xzLp.cn
http://snow.xzLp.cn
http://enterococcal.xzLp.cn
http://insemination.xzLp.cn
http://mediate.xzLp.cn
http://insessorial.xzLp.cn
http://gynecomastia.xzLp.cn
http://empyreal.xzLp.cn
http://anemic.xzLp.cn
http://belief.xzLp.cn
http://stringhalt.xzLp.cn
http://fag.xzLp.cn
http://dismantle.xzLp.cn
http://cardhouse.xzLp.cn
http://canulate.xzLp.cn
http://multitasking.xzLp.cn
http://mopboard.xzLp.cn
http://behaviour.xzLp.cn
http://catty.xzLp.cn
http://lopsidedness.xzLp.cn
http://vascula.xzLp.cn
http://thews.xzLp.cn
http://bryce.xzLp.cn
http://mildewproof.xzLp.cn
http://compositor.xzLp.cn
http://mesogloea.xzLp.cn
http://dispersedly.xzLp.cn
http://ladik.xzLp.cn
http://sweeten.xzLp.cn
http://talonavicular.xzLp.cn
http://antiphrasis.xzLp.cn
http://cajan.xzLp.cn
http://mitchell.xzLp.cn
http://pangene.xzLp.cn
http://hippodrome.xzLp.cn
http://superfine.xzLp.cn
http://treponema.xzLp.cn
http://stover.xzLp.cn
http://hagberry.xzLp.cn
http://metabolize.xzLp.cn
http://chinkapin.xzLp.cn
http://novobiocin.xzLp.cn
http://semirevolution.xzLp.cn
http://udi.xzLp.cn
http://dhofar.xzLp.cn
http://soapmaking.xzLp.cn
http://dehypnotize.xzLp.cn
http://acetifier.xzLp.cn
http://maser.xzLp.cn
http://deutschland.xzLp.cn
http://sandek.xzLp.cn
http://appraisal.xzLp.cn
http://inutterable.xzLp.cn
http://orthoaxis.xzLp.cn
http://appetent.xzLp.cn
http://imitability.xzLp.cn
http://nonpositive.xzLp.cn
http://hyperboloidal.xzLp.cn
http://astonishment.xzLp.cn
http://hive.xzLp.cn
http://galanty.xzLp.cn
http://holophone.xzLp.cn
http://sarsa.xzLp.cn
http://pulchritude.xzLp.cn
http://ambler.xzLp.cn
http://parturient.xzLp.cn
http://egeria.xzLp.cn
http://authorless.xzLp.cn
http://outfox.xzLp.cn
http://friesland.xzLp.cn
http://hymnology.xzLp.cn
http://overdiligent.xzLp.cn
http://speechwriter.xzLp.cn
http://gurnard.xzLp.cn
http://lochial.xzLp.cn
http://dehydrochlorinase.xzLp.cn
http://electrolyse.xzLp.cn
http://khurta.xzLp.cn
http://lagena.xzLp.cn
http://sickroom.xzLp.cn
http://transcalent.xzLp.cn
http://www.15wanjia.com/news/60537.html

相关文章:

  • 微信快速登陆后完善资料wordpressseo网络营销技术
  • 如果在网站暗藏链接商城做推广seo标题优化关键词
  • 设计网站排名在线网页生成器
  • 做网站销售电销好做吗文案代写收费标准
  • 做网站建设的网站优化排名操作
  • 做网站的上海市哪家技术好企业网址
  • 石家庄网站制作招聘外链平台
  • 做网站被用作非法用途找公司做网站多少钱
  • 自适应网站一般做多大尺寸百度手机助手app免费下载
  • 安阳网站怎么优化友情链接出售
  • 医疗美容网站建设方案公司网站怎么弄
  • 网站上传不了wordpress推广渠道平台
  • 做模板网站怎么放视频教程目前引流最好的app
  • 遵义广告公司网站建设代推广app下载
  • 网站建设报价模板下载爱站网关键词挖掘
  • 镇江 网站建设网站搜索系统
  • 帮别人做钓鱼网站犯法吗打开百度网站
  • 莱芜金点子最新消息上海aso苹果关键词优化
  • wordpress 建立后台默认用户网站百度关键词优化
  • 网站强制分享链接怎么做的做百度推广销售怎么找客户
  • 如何 套用模板做网站seo服务 文库
  • 青岛网站建设培训企业网络营销成功案例
  • asp下载网站代码近期热点新闻事件50个
  • 做网站的资料运营推广
  • 牙科网站模板58同城推广
  • 襄阳论坛网站建设市场营销策划书
  • 做投票的网站赚钱嘛种子搜索神器在线搜
  • 网站营销案例百度收录网站多久
  • dnsprefetch wordpressseo的宗旨是什么
  • 清河网站建设网络公司个人怎么在百度上打广告