当前位置：首页 > news >正文

网站建设推荐公司徐州网站关键词排名

news 2025/7/31 6:13:42

网站建设推荐公司,徐州网站关键词排名,营销型网站定义,网页设计图片之间空隙目录 Requests库 7个主要方法 Requests库的get()方法 Response对象的属性爬取网页的通用代码框架理解requests库的异常 HTTP协议及Requests库方法 HTTP协议 HTTP协议采用URL作为定位网络资源的标识。 HTTP协议对资源的操作理解PATCH和PUT的区别 HTTP协议与Requse…

Requests库

7个主要方法

Requests库的get()方法

Response对象的属性

爬取网页的通用代码框架

理解requests库的异常

HTTP协议及Requests库方法

HTTP协议

HTTP协议采用URL作为定位网络资源的标识。

HTTP协议对资源的操作

理解PATCH和PUT的区别

HTTP协议与Requsets库

Requests库主要方法解析

requests.requst()

Requests库

>>> import requests# 获取网页
>>> r = requests.get("http://www.baidu.com")# 获取网页状态码，200表示成功
>>> print(r.status_code)
200>>> type(r)
<class 'requests.models.Response'>>>> r.headers
{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, ection': 'Keep-Alive', 'Transfer-Encoding': 'chunked', 'Server':}

7个主要方法

方法	说明
requests.requst()	构造一个请求，最基本的方法，是下面方法的支撑
requests.get()	获取HTML网页，对应HTTP中的GET方法
requests.post()	向HTML网页提交POST信息，对应HTTP中的POST方法
requests.head()	获取HTML网页的头信息，对应HTTP中的HEAD方法
requests.put()	向HTML提交PUT方法，对应HTTP中的PUT方法
requests.patch()	向HTML网页提交局部请求修改的的请求，对应HTTP中的PATCH方法
requests.delete()	向HTML提交删除请求，对应HTTP中的DELETE方法

Requests库的get()方法

r = requests.get(url)

1、构造一个向服务器请求资源的Request对象 $\Rightarrow$ Request

2、返回一个包含服务器资源的Response对象 $\Rightarrow$ Response $\Rightarrow$ Response对象包含爬虫返回的内容

requests.get(url,params=None,**kwargs)

url：获取html的网页的url

params：url中的额外的参数，字典或字节流格式，可选

**kwargs：12个控制访问的参数

def get(url,params=None,**kwargs):"""Send a GET request.:param url: URL for the new :class:'Request' object.:param params: (optional) Dictionary or bytes to be sent in the query string for the:param \*\*kwargs: Optional arguments that ''request'' takes.:return: class:'Request <Request>' object:rtype: requests.Request"""kwargs.setdefault('allow_radirects', True)return request('get', url, params=params, **kwargs)

Response对象的属性

属性	说明
r.status_code	HTTP请求返回状态码，200表示连接成功，404表示失败
r.text	HTTP响应的字符串形式，即，url对应的页面内容
r.encoding	从HTTP　header中猜测的响应内容的编码方式
r.apparent_encoding	从内容中分析响应内容的编码方式(备选编码方式)
r.content	HTTP响应内容的二进制形式

r.encoding：如果header中不存在charset，则认为编码为 ISO-8859-1。

r.apparent_encoding：根据网页内容分析出的编码方式。

爬取网页的通用代码框架

理解requests库的异常

异常	说明
requests.ConnectionError	网络连接异常，如DNS查询失败，拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常

专门与异常打交道

import requests
def getHTMLText(url):try:r = requests.get(url, timeout=30)r.raise_for_status()  # 如果不是200，引发HTTPError异常r.encoding = r.apparent_encodingreturn r.textexcept:return "产生异常"if __name__ == "__main__":url = "http://www.daidu.dom"print(getHTMLText(url))

爬取网页的通用代码框架最大的作用是能够使用户访问或爬取网页变得更有效更稳定更可靠

HTTP协议及Requests库方法

HTTP协议

HTTP，Hypertext Transfer Protocol，超文本传输协议。

HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。

请求与响应：用户发起请求，服务器做相关响应。

无状态：第一次跟第二次请求之间并没有相关的关联。

应用层协议：该协议工作再TCP协议之上。

HTTP协议采用URL作为定位网络资源的标识。

URL格式：http://host[:post][path]

host：合法的Internet主机域名或IP地址

port：端口号，缺省端口为80

path：请求资源的路径

HTTP URL实例：

http://www.bit.edu.cn

http://220.181.111.188/duty

HTTP URL理解：

URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。

HTTP协议对资源的操作

方法	说明
GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的响应消息报告，即获取该资源的头部消息
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE	请求删除URL位置存储的资源

理解PATCH和PUT的区别

假设URL位置有一组数据UserInfo，包括UserID、UserName等20个字段。

需求：用户修改了UserName，其他不变。

采用PATCH，仅向URL提交UserName的局部更新请求。
采用PUT，必须将所有20个字段一并提交到URL，未提交字段被删除。

PATCH的最主要好处：节省网络带宽

HTTP协议与Requsets库

HTTP协议方法	Requsets库方法	功能一致性
GET	requests.get()	一致
HEAD	requests.post()	一致
POST	requests.head()	一致
PUT	requests.put()	一致
PATCH	requests.patch()	一致
DELETE	requests.delete()	一致

Requsets库的head()方法

r = requests.head('http://httpbin.org/get')
r.headers # 展示反馈头部信息的内容
r.text # 展示全部内容，但发现内容是空

head()方法可以用很少的网络流量获取网络资源的概要信息。

Requsets库的post()方法

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post('http://httpbin.org/post', data = payload)
print(r.text)

当我们向UPL去POST一个字典，或者POAT键值对的时候，那么键值对会默认地被存储到表单的字段下。

r = requests.post('http://httpbin.org/post', data = 'ABC')
print(r.text)

如果我们不提交键值对，就提交一个字符串ABC，那么我们就发现ABC被存到了data的相关的字段下。

post方法根据用户提交内容的不同在服务器上会做数据的相关的整理。

put方法也是一样，它与post方法类似，只不过它能够将原有的数据覆盖掉。

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.put('http://httpbin.org/post', data = payload)
print(r.text)

Requests库主要方法解析

requests.requst()

requests.requst(method,url,**kwargs)

method：请求方式，对应get/put/post等7种

url：拟获取页面的url链接

**kwargs：控制访问的参数，共13个

method：请求方式

r = requests.requst('GET',url,**kwargs)
r = requests.requst('HEAD',url,**kwargs)
r = requests.requst('POST',url,**kwargs)
r = requests.requst('PUT',url,**kwargs)
r = requests.requst('PATCH',url,**kwargs)
r = requests.requst('delete',url,**kwargs)
r = requests.requst('OPTIONS',url,**kwargs)

OPTIONS，事实上是向服务器获取一些服务器跟客户端能够打交道的参数，这里面并不与获取资源直接相关，因此平时中使用的少。

**kwargs：控制访问的参数，均为可选项

params：字典或字节序列，作为参数增加到url中

kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('http://python123.io/ws', params = kv)
print(r.url)# 运行结果 http://python123.io/ws?key1=value1&key2=value2

data：字典、字节序列或文件对象，作为Request的内容

kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('POST','http://python123.io/ws', data = kv)
body = '主体内容'
r = requests.request('POST','http://python123.io/ws', data = body)

json：JSON格式的数据，作为Request的内容

kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('POST','http://python123.io/ws', json = kv)

headers：字典，HTTP定制头

hd = {'user-agent': 'Chrome/10'}
r = requests.request('POST','http://python123.io/ws', headers = hd)

cookies：字典或CookieJar，Request中的cookies
auth：元组，支持HTTP认证功能
files：字典类型，传输文件

fs = {'file': open'data.xls', 'rb'}
r = requests.request('POST','http://python123.io/ws', files = fs)

timeout：设定超时时间，秒为单位

r = requests.request('POST','http://python123.io/ws', timeout = 10)

proxies：字典类型，设定访问代理服务器，可以增加登录认证

pxs = { 'http':'http://user:pass@10.10.10.1:1234','https','http://10.10.10.1:4321'}
r = requests.request('POST','http://python123.io/ws', proxies = pxs)