当前位置: 首页 > news >正文

html做校园网站wordpress获取所有分类

html做校园网站,wordpress获取所有分类,基于微信公众号开发网站开发,漳州软件开发公司bs4进行数据解析 -数据解析的原理: - 1.标签定位 -2.提取标签、标签属性中存储的数据值 - bs4数据解析的原理: - 1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中 -2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取 - 环境安装: - pi…

bs4进行数据解析
-数据解析的原理:
- 1.标签定位
-2.提取标签、标签属性中存储的数据值
- bs4数据解析的原理:
- 1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中
-2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取

- 环境安装:
- pip install bs4
- pip install lxml
- 如何实例化BeautifulSoup对象:
        - from bs4 import BeautifulSoup
                -对象的案例化:
                        - 1.将本地的html文档中的数据加载到该对象中
                                fp = open('./test.html','r', encoding='utf-8')
                                soup = BeautifulSoup(fp, 'lxml')
                        - 2.将互联网上获取的页面源码加载到该对象中
                                page_text = response. text
                                soup = BeatifulSoup(page_text, 'lxml')
        - 提供的用于数据解析的方法和属性:

爬取三国演义文本数据

先使用通用爬虫爬取页面所有数据,再解析标题内容

import requests  # 导入requests库,用于发起网络请求
from bs4 import BeautifulSoup  # 导入BeautifulSoup库,用于解析网页内容# 设置要爬取的网站的URL和请求头信息
url = 'https://www.shicimingju.com/book/sanguoyanyi.html'  # 这是我们要爬取的网站地址
headers = {'User-Agent': 'Mozilla/5.0'}  # 这是告诉网站我们是用什么浏览器来访问的,这里用的是Mozilla/5.0,类似于Firefox# 使用requests发起网络请求,获取网页内容
page_text = requests.get(url=url, headers=headers).content  # 发起请求并获取返回的网页内容# 创建BeautifulSoup对象,用于解析网页内容
soup = BeautifulSoup(page_text, 'html.parser')  # 使用html.parser解析网页内容# 使用BeautifulSoup选择器找到包含章节标题和详情页URL的列表项
li_list = soup.select('.book-mulu > ul > li')  # 找到所有符合这个规则的列表项# 打开一个文件,准备写入解析到的内容
fp = open('./sanguo.txt', 'w', encoding='utf-8')  # 打开一个文件,准备写入解析到的内容# 遍历找到的列表项,解析每个章节的标题和详情页URL
for li in li_list:title = li.a.string  # 提取每个列表项中a标签内的文本内容,即章节标题detail_url = 'http://www.shicimingju.com' + li.a['href']  # 构建每个章节的详情页URL# 对每个详情页发起网络请求,获取详情页内容try:detail_page_text = requests.get(url=detail_url, headers=headers).content  # 发起请求并获取返回的详情页内容detail_soup = BeautifulSoup(detail_page_text, 'html.parser')  # 使用html.parser解析详情页内容div_tag = detail_soup.find('div', class_='chapter_content')  # 找到包含章节内容的div标签if div_tag:  # 如果找到章节内容div标签content = div_tag.text  # 提取章节内容文本fp.write(title + ':' + content + '\n')  # 将章节标题和内容写入文件,每行一个print(title, '爬取成功!!!')  # 打印章节标题,表示成功爬取else:print(title, '内容解析失败!!!')  # 打印章节标题,表示内容解析失败except requests.exceptions.RequestException as e:  # 处理可能出现的网络请求异常print(f'请求失败: {e}')  # 打印错误信息# 完成所有章节的解析和写入后,关闭文件
fp.close()  # 关闭文件

http://www.15wanjia.com/news/182075.html

相关文章:

  • 信阳建设网站哪家好网络公司经营范围怎么填写
  • 玄圭互联网站建设推广深圳网站建设fantodo
  • 做网站和做游戏哪个难同城网站开发
  • 自助外贸网站制作医药o2o平台有哪些
  • 模块建站平台百度网页版怎么切换
  • 工业和信息化部关于开展加强网站备案管理专项行动的通知网站建设灬金手指下拉十四
  • 中国建设银行网站类型asp 英文企业网站 免费
  • 余杭区住房与建设局网站大佛寺广州网站
  • 冯站长之家网络营销的四种策略
  • 杭州人防质监站网址搜索引擎排名查询工具
  • 某男神去年年底来某网站做见面会_竟要求安保人数超过两位数移动网站套餐
  • 郑州软件网站建设以色列网站后缀
  • 网站访问跳出率谷歌推广怎么做最有效
  • 公司网站海报怎么做做网站诈钱
  • 海口网站建设王道下拉棒网站建设公司服务公司
  • 如何建设一个普通网页网站做外汇应该看哪一家网站
  • wordpress 模块seo服务收费
  • 网站备案相关前置许可电脑配件电子商务网站设计方案
  • 建设教育协会培训网站做多语言网站不会翻译怎么办
  • 放射科网站建设公众号seo排名软件
  • 我的世界是谁做的视频网站wordpress手机号
  • 建设银行网站每天几点更新网站开发工作室
  • 网站外链 快速建设传奇176网页游戏
  • wordpress网站登录网站开发神器
  • 网站建设过程发生的费用网站服务器的安全性首先是实现用户账号的权限设置
  • 手机网站建设行业分析网站建设的目的
  • 宁波网站建设服务服务商青岛网络营销推广
  • vs做网站怎么添加子页广东建网站的公司
  • 国内移动端网站做的最好的管理网站模板下载
  • 太原seo公司网站大型网上购物商城