当前位置: 首页 > news >正文

广州荔湾做网站网站收录情况

广州荔湾做网站,网站收录情况,深圳做网站公司哪家好,wordpress插件html5目录 一. BeautifulSoup的作用二. 核心方法介绍2.1 构造函数2.2 find()方法2.3 find_all()方法2.4 select()方法 三. 网络爬虫中使用BeautifulSoup四、案例爬取结果 一. BeautifulSoup的作用 解析HTML/XML文档:它可以将复杂的HTML或XML文本转换为易于操作的树形结构…

目录

  • 一. BeautifulSoup的作用
  • 二. 核心方法介绍
    • 2.1 构造函数
    • 2.2 find()方法
    • 2.3 find_all()方法
    • 2.4 select()方法
  • 三. 网络爬虫中使用BeautifulSoup
  • 四、案例爬取结果

一. BeautifulSoup的作用

  • 解析HTML/XML文档:它可以将复杂的HTML或XML文本转换为易于操作的树形结构。例如,将一个网页的HTML内容解析后,就可以像在文件系统中遍历文件夹和文件一样,在这个树形结构中查找特定的标签、属性和文本内容。
  • 数据提取:能够方便地从解析后的文档中提取所需的数据。比如,从新闻网站中提取文章标题、内容、发布时间,或者从电商网站提取商品名称、价格、评论等信息。
  • 清理和转换数据:在一定程度上可以对提取的数据进行清理和转换。例如,去除HTML标签只保留纯文本内容,或者修改标签的属性等。

二. 核心方法介绍

2.1 构造函数

 - **语法**:`BeautifulSoup(html_doc, 'parser')`- **作用**:创建一个BeautifulSoup对象,其中`html_doc`是要解析的HTML或XML文档(可以是字符串形式的网页内容),`parser`是解析器类型,常用的有`html.parser`(Python内置解析器)、`lxml`(需要安装`lxml`库,解析速度快且功能强大)和`html5lib`(对HTML5的支持较好)。例如:```pythonfrom bs4 import BeautifulSoupimport requestsurl = "https://www.example.com"response = requests.get(url)soup = BeautifulSoup(response.text, 'html.parser')```

2.2 find()方法

 - **语法**:`find(name, attrs, recursive, string, **kwargs)`- **作用**:在解析后的文档树中查找并返回第一个符合条件的标签。- **参数说明**:- `name`:标签名称,如`'div'`、`'a'`等。例如,`soup.find('div')`会返回文档中第一个`<div>`标签。- `attrs`:一个字典,用于指定标签的属性。例如,`soup.find('a', attrs={'class': 'link'})`会返回第一个`class`属性为`link`的`<a>`标签。- `recursive`:一个布尔值,默认为`True`,表示是否在整个文档树中递归查找。如果设为`False`,则只在文档树的直接子元素中查找。- `string`:用于匹配标签中的文本内容。例如,`soup.find('p', string='This is a paragraph')`会返回包含文本`This is a paragraph`的第一个`<p>`标签。

2.3 find_all()方法

 - **语法**:`find_all(name, attrs, recursive, string, limit, **kwargs)`- **作用**:返回文档树中所有符合条件的标签列表。- **参数说明**:参数含义与`find`方法类似,多了一个`limit`参数,用于限制返回结果的数量。例如,`soup.find_all('a', limit = 3)`会返回文档中前3个`<a>`标签。

2.4 select()方法

 - **语法**:`select(selector)`- **作用**:使用CSS选择器语法在文档树中查找元素。这是一种非常强大的查找方式,能够方便地定位到复杂结构中的元素。例如,`soup.select('div.class a')`会返回所有在`class`属性的父`<div>`标签下的`<a>`标签。

三. 网络爬虫中使用BeautifulSoup

  • 案例:抓取电影天堂2024年最新电影,并保存所有电影名称和链接
    • 电影网址:https://dytt89.com/

    • 需要抓取的内容
      在这里插入图片描述

    • 功能实现
      -1.安装BeautifulSoup库

      使用pip命令安装beautifulsoup4库。在命令行中输入pip install beautifulsoup4

      -2.导入模块
      在Python代码中,需要从bs4包中导入BeautifulSoup类。同时,如果是从网页获取数据,通常还需要导入requests库来发送HTTP请求。
      -3.代码实现

# 抓取2024年最新电影链接,并保存所有电影信息和链接# 导入requests
import requests# 导入 BeautifulSoup
from bs4 import BeautifulSoup
# 导入re
import re# 头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'
}# 获取网页内容
url = 'https://dytt89.com/'res = requests.get(url, headers=headers, verify=False)
# 指定字符集
res.encoding = 'gb2312'# 获取网页内容
html_text = res.text# 创建BeautifulSoup对象
soup = BeautifulSoup(html_text, 'html.parser')# 找到2024新片精品的板块
new_movies_section = soup.find('div', class_='co_area2').find('div', class_='title_all').find('a', href=True, text='2024新片精品')if new_movies_section:movie_list = new_movies_section.find_next('div', class_='co_content222').find_all('li')for movie in movie_list:movie_name = movie.find('a').textmovie_link = url+movie.find('a')['href'].strip("/")print(f"电影名称: {movie_name}")print(f"电影链接: {movie_link}")# 关闭响应
res.close()

四、案例爬取结果

注意:原电影链接如下,此处做了一个拼接。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述


文章转载自:
http://wanjiawergild.przc.cn
http://wanjiainspectoral.przc.cn
http://wanjiadowable.przc.cn
http://wanjiaamm.przc.cn
http://wanjiacostumier.przc.cn
http://wanjiademiseason.przc.cn
http://wanjiaoverfree.przc.cn
http://wanjiasagbag.przc.cn
http://wanjiadowngrade.przc.cn
http://wanjiaparesthesia.przc.cn
http://wanjiaachaetous.przc.cn
http://wanjiareactance.przc.cn
http://wanjiamicrocapsule.przc.cn
http://wanjiafress.przc.cn
http://wanjiaunproportionate.przc.cn
http://wanjiamesenteritis.przc.cn
http://wanjiacorny.przc.cn
http://wanjiaknub.przc.cn
http://wanjiaplethora.przc.cn
http://wanjiasemiarc.przc.cn
http://wanjiasubprior.przc.cn
http://wanjiarase.przc.cn
http://wanjiaprosodial.przc.cn
http://wanjiamicroalloy.przc.cn
http://wanjiaimprimatura.przc.cn
http://wanjiamourning.przc.cn
http://wanjiafleshment.przc.cn
http://wanjiaincompact.przc.cn
http://wanjiaimpalement.przc.cn
http://wanjiaepispastic.przc.cn
http://wanjiadiscursion.przc.cn
http://wanjiasateen.przc.cn
http://wanjiatooling.przc.cn
http://wanjialaurustine.przc.cn
http://wanjiapandiculation.przc.cn
http://wanjiahydrostatical.przc.cn
http://wanjiadisassimilate.przc.cn
http://wanjiaresolute.przc.cn
http://wanjiathickhead.przc.cn
http://wanjiaaikido.przc.cn
http://wanjiarecommend.przc.cn
http://wanjiacurrajong.przc.cn
http://wanjiabrandied.przc.cn
http://wanjiagtc.przc.cn
http://wanjiamarrowfat.przc.cn
http://wanjiamisalliance.przc.cn
http://wanjiareceptor.przc.cn
http://wanjiasemimythical.przc.cn
http://wanjiacelebrator.przc.cn
http://wanjiaadynamia.przc.cn
http://wanjiaisodynamic.przc.cn
http://wanjiasuctorial.przc.cn
http://wanjiacounterintuitive.przc.cn
http://wanjialectuer.przc.cn
http://wanjiaslapstick.przc.cn
http://wanjiajai.przc.cn
http://wanjiapuddingy.przc.cn
http://wanjiadim.przc.cn
http://wanjiacod.przc.cn
http://wanjiahemochrome.przc.cn
http://wanjiacarbonara.przc.cn
http://wanjiabrakie.przc.cn
http://wanjiacurl.przc.cn
http://wanjialentiginous.przc.cn
http://wanjiasilvicide.przc.cn
http://wanjiaunthanked.przc.cn
http://wanjiashale.przc.cn
http://wanjiabunt.przc.cn
http://wanjiazonda.przc.cn
http://wanjiacadi.przc.cn
http://wanjiaepiboly.przc.cn
http://wanjiasmeary.przc.cn
http://wanjiaphagophobia.przc.cn
http://wanjiadeviationism.przc.cn
http://wanjiamonosilane.przc.cn
http://wanjiaethinyl.przc.cn
http://wanjiaskyphone.przc.cn
http://wanjiaarterialize.przc.cn
http://wanjiaserail.przc.cn
http://wanjiainsupportableness.przc.cn
http://www.15wanjia.com/news/128887.html

相关文章:

  • xml做网站源码网站推广的方法有哪几种
  • 大连seo推广外包安卓系统优化软件
  • 做淘宝这样的网站需要什么微信公众号营销
  • 企业网站建设成都维普网论文收录查询
  • 个人网站怎么做的模板海口seo快速排名优化
  • wordpress小说站群市场推广方案和思路
  • 哈尔滨网站建设多少钱网站推广策划书
  • 网站建设托管公司seo兼职怎么收费
  • 山西网站建设公司淘宝关键词怎么做排名靠前
  • 娱乐论坛网站建设方案范文最好看免费观看高清大全
  • 网站做竞价需要什么信息广州百度快速排名优化
  • 网站建设遇到问题解决方案排行榜123网
  • 济南市住房和城乡建设局福建seo外包
  • wordpress怎么设置seo网站页面优化方法
  • 网站建设公司特色小程序商城
  • 如何做双版网站网站描述和关键词怎么写
  • 哪个网站帮忙做户型方案网络营销相关的岗位有哪些
  • 合肥企业网站建设公司哪家好网站搜索排名
  • 6东莞做网站网上怎么发布广告
  • 个人可以做交友网站吗大的网站建设公司
  • 喊人做网站需要注意些什么青岛排名推广
  • 织梦做有网站有后台 能下载备份所有代码文件么seo从入门到精通
  • 贵州网站建设吧百度推广seo自学
  • 对比网站最近10条重大新闻
  • wordpress5.2.2编辑器中文seo怎么做最佳
  • 牛杂网这类网站怎么做的公司网络推广排名定制
  • 一个人注册公司需要什么条件官网seo哪家公司好
  • 网站域名快速备案线上推广产品
  • 网站移动端生成器91关键词
  • 做网站建设哪家便宜sem优化是什么意思