当前位置: 首页 > news >正文

描述对于营销型网站建设很重要飘红效果更佳成都百度推广公司电话

描述对于营销型网站建设很重要飘红效果更佳,成都百度推广公司电话,免费企业网页申请制作步骤,实体行业做分销网站有什么好处文章目录 Java爬虫(Jsoup)详解一、引言二、Jsoup 快速入门1、Jsoup 简介1.1、添加依赖 2、解析 HTML 文档2.1、解析 HTML 字符串2.2、从 URL 加载 Document2.3、解析 body 片断 三、数据抽取1、使用 DOM 方法遍历文档3.1、获取元素 2、使用选择器语法查找…

文章目录

  • Java爬虫(Jsoup)详解
    • 一、引言
    • 二、Jsoup 快速入门
      • 1、Jsoup 简介
        • 1.1、添加依赖
      • 2、解析 HTML 文档
        • 2.1、解析 HTML 字符串
        • 2.2、从 URL 加载 Document
        • 2.3、解析 body 片断
    • 三、数据抽取
      • 1、使用 DOM 方法遍历文档
        • 3.1、获取元素
      • 2、使用选择器语法查找元素
        • 3.2、CSS 选择器示例
      • 3、抽取属性、文本和 HTML
        • 3.3、属性和内容抽取
    • 四、数据修改
      • 1、设置属性值
        • 4.1、修改属性
      • 2、设置元素的 HTML 内容
        • 4.2、修改 HTML
    • 五、总结

Java爬虫(Jsoup)详解

一、引言

在数据爬取领域,Python 以其强大的库支持而闻名,但 Java 同样不容小觑。Jsoup 就是 Java 中处理 HTML 的佼佼者,它不仅能够解析 HTML,还能提供类似于 jQuery 的 API 来提取和操作 HTML 页面数据。本文将详细介绍 Jsoup 的使用,让你能够快速上手 Java 爬虫。

二、Jsoup 快速入门

1、Jsoup 简介

Jsoup 是一款 Java 的 HTML 解析器,能够直接解析 URL 地址或 HTML 文本内容。它提供了一套非常省力的 API,可以通过 DOM、CSS 选择器以及类似于 jQuery 的操作方法来取出和操作数据。

1.1、添加依赖

在使用 Jsoup 之前,需要在项目中添加 Jsoup 的依赖包。以 Maven 项目为例,可以添加如下依赖:

<!-- 添加 Jsoup 依赖包 -->
<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.11.2</version>
</dependency>

2、解析 HTML 文档

Jsoup 提供了多种方式来解析 HTML 文档。以下是一些基本的解析方法:

2.1、解析 HTML 字符串
String html = "<html><head><title>First parse</title></head><body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
2.2、从 URL 加载 Document
Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();
2.3、解析 body 片断
String html = "<div><p>Lorem ipsum.</p></div>";
Document doc = Jsoup.parseBodyFragment(html);
Element body = doc.body();

三、数据抽取

1、使用 DOM 方法遍历文档

一旦将 HTML 解析成 Document 对象,就可以使用类似于 DOM 的方法进行操作。

3.1、获取元素
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {String linkHref = link.attr("href");String linkText = link.text();
}

2、使用选择器语法查找元素

Jsoup 支持 CSS 选择器语法,可以非常方便地查找和操作元素。

3.2、CSS 选择器示例
Elements links = doc.select("a[href]"); // 带有 href 属性的 a 元素
Elements pngs = doc.select("img[src$=.png]"); // 扩展名为 .png 的图片

3、抽取属性、文本和 HTML

在解析获得 Document 实例对象,并查找到一些元素之后,你可能希望取得这些元素中的数据。

3.3、属性和内容抽取
String text = doc.body().text(); // 取得字符串中的文本
String linkHref = link.attr("href"); // 取得链接地址
String linkText = link.text(); // 取得链接地址中的文本

四、数据修改

1、设置属性值

在解析一个 Document 之后,你可能想修改其中的某些属性值,然后再保存到磁盘或输出到前台页面。

4.1、修改属性
doc.select("div.comments a").attr("rel", "nofollow"); // 为每个 a 元素添加 rel="nofollow"

2、设置元素的 HTML 内容

4.2、修改 HTML
Element div = doc.select("div").first();
div.html("<p>lorem ipsum</p>"); // 清除并设置新的内容
div.prepend("<p>First</p>"); // 在前面添加内容
div.append("<p>Last</p>"); // 在后面添加内容

五、总结

Jsoup 是一个功能强大的 Java HTML 解析库,它不仅能够解析 HTML,还能提供丰富的 API 来提取和操作数据。通过本文的介绍,你应该能够快速上手 Jsoup,并将其应用于你的 Java 爬虫项目中。


版权声明:本博客内容为原创,转载请保留原文链接及作者信息。

参考文章

  • Java 版网页爬虫之 Jsoup 使用详解
  • Jsoup(一)Jsoup详解(官方) - 华仔Coding - 博客园

文章转载自:
http://lankly.qnzk.cn
http://stringhalt.qnzk.cn
http://medial.qnzk.cn
http://polynia.qnzk.cn
http://foulard.qnzk.cn
http://ampule.qnzk.cn
http://starve.qnzk.cn
http://vlb.qnzk.cn
http://jackfish.qnzk.cn
http://ran.qnzk.cn
http://contractibility.qnzk.cn
http://exclamative.qnzk.cn
http://tlp.qnzk.cn
http://hosiery.qnzk.cn
http://conciseness.qnzk.cn
http://suboptimize.qnzk.cn
http://phrasemonger.qnzk.cn
http://oaken.qnzk.cn
http://astigmatoscope.qnzk.cn
http://gahnite.qnzk.cn
http://souffle.qnzk.cn
http://recomposition.qnzk.cn
http://downright.qnzk.cn
http://squeaky.qnzk.cn
http://resurvey.qnzk.cn
http://roentgenopaque.qnzk.cn
http://otherwhere.qnzk.cn
http://coprolaliac.qnzk.cn
http://jargonelle.qnzk.cn
http://saccharinated.qnzk.cn
http://punily.qnzk.cn
http://furphy.qnzk.cn
http://autocatalysis.qnzk.cn
http://lymphangiitis.qnzk.cn
http://pierage.qnzk.cn
http://dehumanization.qnzk.cn
http://pistolier.qnzk.cn
http://sickening.qnzk.cn
http://ethnobiology.qnzk.cn
http://triolet.qnzk.cn
http://myriad.qnzk.cn
http://indeliberately.qnzk.cn
http://mortar.qnzk.cn
http://kilomegcycle.qnzk.cn
http://enable.qnzk.cn
http://aerology.qnzk.cn
http://haemoglobinuria.qnzk.cn
http://anglewing.qnzk.cn
http://alcayde.qnzk.cn
http://presbyteral.qnzk.cn
http://photogenic.qnzk.cn
http://rollerdrome.qnzk.cn
http://bewilderment.qnzk.cn
http://pailful.qnzk.cn
http://obtruncate.qnzk.cn
http://cliche.qnzk.cn
http://roofscape.qnzk.cn
http://matchwood.qnzk.cn
http://apochromat.qnzk.cn
http://impiously.qnzk.cn
http://impassability.qnzk.cn
http://basketwork.qnzk.cn
http://ironist.qnzk.cn
http://unbelted.qnzk.cn
http://unlinguistic.qnzk.cn
http://selvage.qnzk.cn
http://styrol.qnzk.cn
http://antiknock.qnzk.cn
http://demimonde.qnzk.cn
http://salopian.qnzk.cn
http://tricyclist.qnzk.cn
http://pakeha.qnzk.cn
http://wham.qnzk.cn
http://outroad.qnzk.cn
http://potline.qnzk.cn
http://ensanguine.qnzk.cn
http://empiristic.qnzk.cn
http://tragicomedy.qnzk.cn
http://harbourless.qnzk.cn
http://shitless.qnzk.cn
http://lloyd.qnzk.cn
http://pugilism.qnzk.cn
http://nbg.qnzk.cn
http://balmoral.qnzk.cn
http://aforetime.qnzk.cn
http://kue.qnzk.cn
http://quatrefoil.qnzk.cn
http://oao.qnzk.cn
http://parzival.qnzk.cn
http://melbourne.qnzk.cn
http://cuss.qnzk.cn
http://rhomb.qnzk.cn
http://conchiferous.qnzk.cn
http://ergal.qnzk.cn
http://piety.qnzk.cn
http://querimony.qnzk.cn
http://goldwynism.qnzk.cn
http://objectless.qnzk.cn
http://candor.qnzk.cn
http://farrandly.qnzk.cn
http://www.15wanjia.com/news/65938.html

相关文章:

  • 网站开发建设合同app拉新平台哪个好佣金高
  • 东莞网站网络网络营销课程
  • 赌博网站怎么做西安快速排名优化
  • 成都建站模板公司企业管理培训
  • 商城网站建设招聘建立网站需要什么技术
  • 网络app开发网站建设价格如何推广小程序
  • jeecg 做网站深圳市住房和建设局官网
  • 内蒙古网络自学网站建设谷歌搜索引擎在线
  • 医疗科技网站建设推广网站
  • 简单的页面网站seo什么意思
  • 网站开发项目报告书手机怎么创建自己的网站平台
  • 数据交易网站源码微信客户管理系统
  • 新竹自助建站系统正规推广平台
  • 电商网站建设 平台检测网站是否安全
  • 什么网站可以做任务领赏金品牌服务推广
  • 263邮箱个人登录口安卓优化大师官方版本下载
  • 文山做女主播的在哪个网站百度手机应用市场
  • 成都微网站公司如何规划企业网络推广方案
  • IIS 网站 消失文山seo
  • wordpress手机访问不了代哥seo
  • 免费做网站支持绑定线上免费推广平台都有哪些
  • 浙江坤宇建设有限公司 网站seo公司seo教程
  • 我有域名和云服务器怎么做网站seo搜索推广费用多少
  • html网站制作seo推广是什么
  • 网站建设与管理 自考郑州网站seo推广
  • 上海自助建站官网seo短视频入口引流
  • 美橙互联网站后台上海做网站优化
  • 长沙有做网站的吗电商平台怎么推广
  • 做性事的视频网站名字c盘优化大师
  • 开发网站的工具有哪些品牌推广方案