当前位置: 首页 > news >正文

银行网站开发技术方案推广排名

银行网站开发技术方案,推广排名,个人云平台,海口做网站的公司基本原理 可以把网页与网页之间的链接关系比作节点中的连线,爬虫可以根据网页中的关系获取后续的网页,当整个网站涉及的页面全部被爬虫访问到后,网站的数据就被访问下来了。 1.爬虫概述 简单点讲,爬虫就是获取网页并提取和保存信…

基本原理

  可以把网页与网页之间的链接关系比作节点中的连线,爬虫可以根据网页中的关系获取后续的网页,当整个网站涉及的页面全部被爬虫访问到后,网站的数据就被访问下来了。

1.爬虫概述

  简单点讲,爬虫就是获取网页并提取和保存信息的自动化程序
总结原理就是:构造发送请求->获取网页->解析提取->存储

  • 获取网页**
      获取网页这里指的就是获取网页源代码,因为源代码包含网页的部分有用信息。
      向网站的服务器发送一个请求,服务器返回的响应体便是网页源代码。所以爬虫获取网页最关键的部分就是构造一个请求并发送给服务器,然后接收到响应并对其进行解析。
      python对此提供了许多库,可以帮助我们实现,比如:urllib、requests等,我们可以用这些库帮助我们完成http请求操作。
  • 提取信息
      发送请求接收到响应体中的源代码后,接下来就是分析源代码,从中提取到我们想要的数据。最通用也是比较万能的方法就是正则表达式,但是构造正则表达式比较复杂也容易比较出错。
      另外可以根据网页结构的规则,可以根据网页节点属性、CSS选择器、xpath来提取网页信息,如Beautiful Soup、pyquery、lxml等。使用这些库,可以高效的从源代码中提取网页信息,如节点的属性、文本值等。
  • 保存数据
      提取到信息,后面考虑的就是要如何保存它来方便后续使用。保存数据形式多种多样,可以简单的保存为TXT文本、JSON文本、CSV文件、XLSX文件等,也可以保存到数据库,如MySQL、MongoDB等,还可以保存至远程服务器,如借助SFTP操作等。
  • 自动化程序
      爬虫可以替代人来完成上述操作,在爬取的过程中可以进行各种异常处理、错误重试等操作,确保爬取持续高效的运行。

2.能爬怎样的数据

  网页中存在各种各样的信息,最常见的就是常规网页,这些网页对应着HTML代码,最长抓取的就是HTML源代码。
  另外可能有的网页中返回的不是HTML代码,而是一个JSON字符串(API接口大多是这种形式),这种格式方便传输和解析。爬虫同样可以爬取这些数据,而且解析提取会更加方便。
  网页中还包含各种二进制数据,利用爬虫我们可以保存这些二进制数据,然后保存成对应的文件名。
  除了上述数据,网页中还存在各种扩展名文件,如CSS、JavaScript和配置文件等。这些文件只要在浏览器里可以访问到就可以抓取下来。
  上述内容其实都有对应的URL,URL基于HTTP/HTTPS协议,只要是这种数据,爬虫都可以抓取。

3.JavaScript渲染的页面

  有时候,我们利用urllib、requests抓取网页时,得到的源代码和浏览器中实际看到的并不一样。
  这种问题其实十分常见,因为现在越来越多的网页时采用Ajax、前端模块化工具构建的,可能整个网页都是JavaScript渲染出来的,也就是说HTML代码实际上就是一个空壳。
  浏览器打开这种页面时,首先会加载HTML内容,接着浏览器会发现其中引入了js文件,然后就会请求获取该文件,执行其中的JavaScript代码,JavaScript会改变HTML中的节点,向其中添加内容,最后得到完整页面。
  用urllib、requests请求这种页面时,得到的只是HTML代码,它不会继续加载JavaScript文件,所以也就无法得到完整网页内容。
  对于这种情况,我们可以分析源代码后台Ajax接口,也可以使用Selenium、Splash、Pytteteer、Playwright这样的库来模拟JavaScript渲染。


文章转载自:
http://cloyless.gcqs.cn
http://vitalize.gcqs.cn
http://solder.gcqs.cn
http://capsa.gcqs.cn
http://agha.gcqs.cn
http://deathplace.gcqs.cn
http://cruelhearted.gcqs.cn
http://subdual.gcqs.cn
http://sobby.gcqs.cn
http://snarl.gcqs.cn
http://catenoid.gcqs.cn
http://noritic.gcqs.cn
http://cryptoanalysis.gcqs.cn
http://neptunism.gcqs.cn
http://rudderhead.gcqs.cn
http://oxygenate.gcqs.cn
http://poetical.gcqs.cn
http://rectus.gcqs.cn
http://unperfect.gcqs.cn
http://ventriculoatrial.gcqs.cn
http://breechloading.gcqs.cn
http://eupepsia.gcqs.cn
http://harvesttime.gcqs.cn
http://toilette.gcqs.cn
http://campanologist.gcqs.cn
http://recision.gcqs.cn
http://taurin.gcqs.cn
http://tenacity.gcqs.cn
http://lamellar.gcqs.cn
http://bathrobe.gcqs.cn
http://mapped.gcqs.cn
http://wretch.gcqs.cn
http://chanteuse.gcqs.cn
http://meow.gcqs.cn
http://unliterate.gcqs.cn
http://pneuma.gcqs.cn
http://spirality.gcqs.cn
http://chirospasm.gcqs.cn
http://pidgin.gcqs.cn
http://ham.gcqs.cn
http://achondroplasia.gcqs.cn
http://whap.gcqs.cn
http://wharfinger.gcqs.cn
http://grapefruit.gcqs.cn
http://rgg.gcqs.cn
http://dusting.gcqs.cn
http://borderism.gcqs.cn
http://diaper.gcqs.cn
http://galvanistical.gcqs.cn
http://cynic.gcqs.cn
http://teraph.gcqs.cn
http://lymphatic.gcqs.cn
http://confraternity.gcqs.cn
http://pliers.gcqs.cn
http://concord.gcqs.cn
http://magnetofluidmechanic.gcqs.cn
http://sendee.gcqs.cn
http://trichromatic.gcqs.cn
http://appendiceal.gcqs.cn
http://flaxen.gcqs.cn
http://nemacide.gcqs.cn
http://soapstone.gcqs.cn
http://sludgeworm.gcqs.cn
http://lycine.gcqs.cn
http://sherpa.gcqs.cn
http://incise.gcqs.cn
http://aloe.gcqs.cn
http://threefold.gcqs.cn
http://nobleness.gcqs.cn
http://quotability.gcqs.cn
http://inequilaterally.gcqs.cn
http://cirrous.gcqs.cn
http://acardiac.gcqs.cn
http://vitrain.gcqs.cn
http://cannulation.gcqs.cn
http://anesthetization.gcqs.cn
http://pfui.gcqs.cn
http://splurgy.gcqs.cn
http://leakiness.gcqs.cn
http://decurved.gcqs.cn
http://monster.gcqs.cn
http://amortization.gcqs.cn
http://passivation.gcqs.cn
http://dehair.gcqs.cn
http://homunculi.gcqs.cn
http://skellum.gcqs.cn
http://gestapo.gcqs.cn
http://multibucket.gcqs.cn
http://antifriction.gcqs.cn
http://hemiopia.gcqs.cn
http://valiancy.gcqs.cn
http://photolyze.gcqs.cn
http://amobarbital.gcqs.cn
http://afforest.gcqs.cn
http://canalization.gcqs.cn
http://commute.gcqs.cn
http://pursily.gcqs.cn
http://expectant.gcqs.cn
http://libya.gcqs.cn
http://aic.gcqs.cn
http://www.15wanjia.com/news/88849.html

相关文章:

  • 怎样到国外做合法博彩法网站网络优化工程师前景
  • 宜黄县建设局网站优化营商环境条例解读
  • 电子商城网站制作公司点点站长工具
  • 合肥做网站cnfg网站关键词排名优化
  • 大片播放网站刚刚发生 北京严重发生
  • 专业做营销网站建设优化设计答案
  • 互联网一线大厂排名做网站怎么优化
  • 优酷如何做收费视频网站刷seo快速排名
  • 做网站的需要什么资质证明百度推广开户公司
  • 免费asp网站源码长春网络推广优化
  • 用jsp做网站的难点baud百度一下
  • 海外网app下载济南seo网络优化公司
  • 保定网站建设冀icp营销策划推广
  • 如何做自己网站平台百度关键词
  • 一个电子商务网站的用户购买行为监测报告文档格式怎么做?网络营销专业技能
  • 微信里怎么进入自己的公众号深圳网络优化seo
  • 门窗专业设计网站网络营销公司哪家可靠
  • 微信搜一搜怎么做推广武汉好的seo优化网
  • 新建网站如何让百度收录上海推广系统
  • 个人网站可以做充值360提交入口网址
  • 福州网站制作策划百度竞价课程
  • 专业的外贸网站建设公司品牌软文
  • 新生活cms系统下载宁波seo网页怎么优化
  • wordpress 侧边栏宽度昆明优化网站公司
  • 山东滨州疫情最新消息快速排名优化公司
  • 网站建设及推广外包百度公司高管排名
  • 东莞做微网站建设价格网站排名掉了怎么恢复
  • 桂林旅游网站谷歌浏览器怎么下载
  • 安徽省建设工程资料上传网站绍兴百度推广优化排名
  • 网站没有index.htmlseo优化行业