当前位置: 首页 > news >正文

做英文网站用什么源码国内做外单的网站有哪些

做英文网站用什么源码,国内做外单的网站有哪些,做调查问卷赚钱哪个网站好,旅游精品网站建设文章目录 一、爬虫基本原理1、什么是爬虫2、爬虫的分类3、网址的构成4、爬虫的基本步骤5、动态【异步】页面和静态【同步】页面6、请求头 二、requests基本原理及使用1、chrome 抓包按钮详解1.1 Elements1.2 元素定位器1.3 Network1.4 All1.5 XHR1.6 Preserve log1.7 手机模式1…

文章目录

  • 一、爬虫基本原理
    • 1、什么是爬虫
    • 2、爬虫的分类
    • 3、网址的构成
    • 4、爬虫的基本步骤
    • 5、动态【异步】页面和静态【同步】页面
    • 6、请求头
  • 二、requests基本原理及使用
    • 1、chrome 抓包按钮详解
      • 1.1 Elements
      • 1.2 元素定位器
      • 1.3 Network
      • 1.4 All
      • 1.5 XHR
      • 1.6 Preserve log
      • 1.7 手机模式
      • 1.8 清空数据包
      • 1.9 Filter
      • 1.10 Search
      • 1.11 Search all file
    • 2、requests介绍
      • 2.1 概念
      • 2.2 安装方式
      • 2.3 基本使用
      • 2.4 response类对应的方法
        • 2.4.1 获取网页源代码:
        • 2.4.2 获取二进制数据【音乐,视频,图片】
        • 2.4.3 获取响应状态码【基本不用】
        • 2.4.4 获取json数据【常用】
      • 2.5 headers的请求


一、爬虫基本原理

1、什么是爬虫

通俗: 解放人的双手, 去互联网获取数据, 保存数据[数据库, txt, excel, csv, pdf, 压缩文件, image, video, music]

本质: 模拟浏览器, 向服务器发送网络请求, 接受服务器返回的数据, 保存数据

2、爬虫的分类

A、通用爬虫: 百度, google, 搜狗 … 搜索引擎
B、聚焦爬虫: 根据指定的目标, 获取数据, 保存数据

3、网址的构成

例如:https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=李智恩
A、协议部分:https / http – 超文本传输协议
B、域名部分:www.baidu.com – ip地址–<外壳>–域名【方便人的记忆】
C、路径部分:一层一层的信息
D、参数部分:请求时候, 携带必要参数 – &符号链接

4、爬虫的基本步骤

A、准备网址
B、请求网址
C、解析数据
D、保存数据

5、动态【异步】页面和静态【同步】页面

A、打开浏览器
B、访问网址
C、网页空白处右键点击,查看网页源代码
D、在网页源代码中搜索网页所展示的部分(如果能搜到,则是静态网页;如果搜不到,则是动态网页)

6、请求头

A、cookies: 身份标识(登录网站之后会有一段cookies值)
B、反爬字段: referer – 来源于哪个网站
C、浏览器标识: user-agent(用户代理)

二、requests基本原理及使用

1、chrome 抓包按钮详解

1.1 Elements

网页源代码展示

1.2 元素定位器

使用元素定位器,可以准确定位网页所展示的部分,对应的前端代码

1.3 Network

网络调试台,可以用于抓包

1.4 All

使用All抓包时,会显示所有的包

1.5 XHR

使用XHR抓包时,只会显示AJAX包,也称为动态数据包,一般用于抓取动态加载的数据

1.6 Preserve log

是否需要保存历史抓包记录,点亮后即为保存历史记录

1.7 手机模式

是否选择手机模式,进行页面访问,一般用于手机抓包

1.8 清空数据包

将当前数据包进行清空,方便更准确的抓取数据包

1.9 Filter

过滤查询,requests_headers

1.10 Search

搜索文本内容所在的包

1.11 Search all file

搜索文本内容所在的包

2、requests介绍

2.1 概念

非常强大的爬虫请求库, 解决日常90%爬虫

2.2 安装方式

pip install requests

2.3 基本使用

  1. 导包: import requests
  2. 使用: respone = requests.get(url, 反爬请求头)

2.4 response类对应的方法

2.4.1 获取网页源代码:

A、text
B、content.decode()

2.4.2 获取二进制数据【音乐,视频,图片】

content

2.4.3 获取响应状态码【基本不用】

response.status_code
200: 请求成功

2.4.4 获取json数据【常用】

网站数据很多都是json数据, 做一件事情: json --> 字典

A、response = requests.get(url).textresponse = json.loads(response)
B、response = requests.get(url).json()

2.5 headers的请求

headers请求头的作用是对爬虫进行伪装,headers的格式是字典,示例如下:

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'}

其中添加的请求头参数个数,可以根据实际需求添加

http://www.15wanjia.com/news/185345.html

相关文章:

  • 手机网站管理系统网站建设捌金手指花总二七
  • 有批量做基因结构的网站吗公司网站怎么做简介
  • wordpress游戏网站自已建网站微信登录
  • 企业网站关于我们合肥做网站的公司百度
  • 企业建设网站的目的是页面设计包括哪些内容
  • 网站地图 制作工具企业网站的形式
  • 网站推广的一般流程是网页设计简图
  • 网站工程师招聘如何用wordpress建网站
  • 自助建个人网站哪个好wordpress 渗透框架
  • 定制跟模板网站有什么不一样ps做网站图片水印
  • 做的好的音乐网站新年电子贺卡免费制作软件app
  • 新兴街做网站公司住房公积金网站怎么做减员
  • 网站规划分析的好处网站上不去原因
  • 做网站用的字体影视自助建站系统源码
  • 温岭网站制作wordpress 无法选择数据库
  • 寻找集团网站建设软件开发相关文档
  • 网站建设工程师北京简网世纪科技有限公司
  • 小程序怎么做微网站链接公司简介万能模板
  • 保定网站建设报价域名价格查询
  • 网站的功能需求分析免费建站推广
  • 网络舆情应对及处置方案seo入门免费教程
  • 建设网站对企业的重要性网站建设与维护方式
  • 网站开发备案需要什么网站建设洽谈问题
  • 招标网址网站大全基层建设论文查询官方网站
  • 黄页网站数据来源怎么做网站搜索
  • 无锡建网站电话wordpress 访客统计插件
  • 焦作网站建设哪家便宜网站设计网络推广网上生意
  • 建盏价格及图片及价格seo网站推广
  • 商务网站创建方案wordpress助手爱奇艺
  • 东莞制作公司网站做网站的哪家公司好