当前位置: 首页 > news >正文

公共化网站建设方案个人代运营一般怎么收费

公共化网站建设方案,个人代运营一般怎么收费,山西住房和城乡建设部网站,广东营销网站建设服务公司目录 一、urllib 1.1 初体验 1.2 使用urllib下载网页、图片、视频等 1.3 反爬介绍 1.4 请求对象定制 1.5 get请求的quote方法 1.6 多个参数转成ascii编码 1.7 post请求 1.8 综合案例演示 一、urllib 1.1 初体验 # urllib是python默认带的,无需额外下载 i…

目录

一、urllib

1.1 初体验

1.2 使用urllib下载网页、图片、视频等 

 1.3 反爬介绍

1.4 请求对象定制

1.5 get请求的quote方法

1.6 多个参数转成ascii编码

1.7 post请求

1.8 综合案例演示


一、urllib

1.1 初体验

# urllib是python默认带的,无需额外下载
import urllib.requesturl = 'http://www.baidu.com'response = urllib.request.urlopen(url)# print(type(response))
# <class 'http.client.HTTPResponse'># 读取n个字节
# content = response.read(5)
# 读取一行
# content = response.readline()
# 读取全部行
# content = response.readlines()# 读取全部并解析为utf-8字符集
content = response.read().decode('utf-8')
print(content)
# 返回url地址
print(response.geturl())
# 获取请求头
print(response.getheaders())

1.2 使用urllib下载网页、图片、视频等 

import urllib.request# 下载网页
url_page = 'https://blog.csdn.net/YuanFudao/article/details/139655676'
# def urlretrieve(url, filename=None, reporthook=None, data=None):
urllib.request.urlretrieve(url_page, '自己的文章.html')

import urllib.request# 下载网页
url_page = 'https://blog.csdn.net/YuanFudao/article/details/139655676'
# def urlretrieve(url, filename=None, reporthook=None, data=None):
#
urllib.request.urlretrieve(url_page, '自己的文章.html')# 下载图片
url_img = 'https://img2.baidu.com/it/u=3317400103,1801697482&fm=253&fmt=auto&app=138&f=JPEG?w=500&h=498'
urllib.request.urlretrieve(url=url_img, filename='人物.jpg')

import urllib.request# 下载网页
url_page = 'https://blog.csdn.net/YuanFudao/article/details/139655676'
# def urlretrieve(url, filename=None, reporthook=None, data=None):
#
urllib.request.urlretrieve(url_page, '自己的文章.html')# 下载图片
url_img = 'https://img2.baidu.com/it/u=3317400103,1801697482&fm=253&fmt=auto&app=138&f=JPEG?w=500&h=498'
urllib.request.urlretrieve(url=url_img, filename='人物.jpg')# 下载视频
url_video = 'https://vdept3.bdstatic.com/mda-ph856bw9kuvxfq8n/360p/h264/1691552893804719248/mda-ph856bw9kuvxfq8n.mp4?v_from_s=hkapp-haokan-nanjing&auth_key=1718881046-0-0-42919dd1325bf8705f23299eec6f8cba&bcevod_channel=searchbox_feed&pd=1&cr=0&cd=0&pt=3&logid=3446619467&vid=3701907759041297688&klogid=3446619467&abtest='
urllib.request.urlretrieve(url_video, '好看视频.mp4')

 1.3 反爬介绍

一些网站,我们没法直接这样获取到资源,大概率是这些网站做了反爬手段,例如上述下载视频,如果是b站视频,直接这样是下载不到的。

再举个例子:

import urllib.requesturl = 'https://www.baidu.com'response = urllib.request.urlopen(url)
content = response.read().decode('utf-8')
print(content)

我们发现访问https的百度和访问http协议的百度,我们返回的结果是不一样的。https://www.baidu.com的结果明显少了很多内容。这其实就是因为反爬的原因。 为什么返回的结果很少?是因为我们提供的数据不完整。那么如何做到无差别浏览器呢?我们慢慢来~

1.4 请求对象定制

UA介绍

User Agent 中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言等。

import urllib.requesturl = 'https://www.baidu.com'
# f12打开百度的network控制台,查看请求头里面携带的user-agent内容,复制过来进行伪造
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'
}
# 请求对象定制
# 因为urlopen中不能传入字典,不能直接传入headers
request = urllib.request.Request(url=url, headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
print(content)

ok,现在可以正常访问了。

这是我们遇到的第一个反爬,ua反爬! 

1.5 get请求的quote方法

案例演示

我们模拟百度搜索周杰伦

import urllib.requesturl = 'https://www.baidu.com/s?wd=周杰伦'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'
}requests = urllib.request.Request(url=url, headers=headers)response = urllib.request.urlopen(requests)content = response.read().decode('utf-8')print(content)

运行报错:

 默认情况下只检索ascii码,因此需要把‘周杰伦’转换成Unicode编码,怎么转呢?

使用quote方法!

import urllib.request
# 需要提前引入
import urllib.parseparam ='周杰伦'
param = urllib.parse.quote(param)
url = 'https://www.baidu.com/s?wd=' + paramheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'
}requests = urllib.request.Request(url=url, headers=headers)response = urllib.request.urlopen(requests)content = response.read().decode('utf-8')print(content)

此时就不在报错了,但是弹出的页面是安全验证,这又是百度的一个反爬手段!我们后续再说

1.6 多个参数转成ascii编码

当然了,我们可以把参数&参数整体作为一个参数通过quote方法转。

不过不建议,这里推荐使用urlencode方法!

import urllib.parsedata = {'wd': '周杰伦','sex': '男'
}a = urllib.parse.urlencode(data)print(a)

 ok,我们再测试一下

import urllib.parse
import urllib.request
data = {'wd': '周杰伦','sex': '男'
}a = urllib.parse.urlencode(data)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'
}url = 'https://www.baidu.com/s?' + arequests = urllib.request.Request(url=url, headers=headers)response = urllib.request.urlopen(requests)content = response.read().decode('utf-8')print(content)

还是遇到了这个安全验证的反爬,说明可能服务器不知道我是谁,那么试试把cookie带上呢。这个留到下面再去实现吧~

1.7 post请求

post请求传参通常不应该也不推荐拼接再url请求路径后,而是放在请求体中。

下面以百度翻译为例,介绍post请求爬虫翻译。

import json
import urllib.request
import urllib.parseurl = 'https://fanyi.baidu.com/sug'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36'
}# 参数
data = {'kw': '玫瑰'
}
data = urllib.parse.urlencode(data).encode('utf-8')# 检查参数拼接是否正确
# print(data)request = urllib.request.Request(url=url, data=data, headers=headers)response = urllib.request.urlopen(request)content = response.read().decode('utf-8')# {"errno":0,"data":[{"k":"\u73ab\u7470","v":"rose; [\u690d] rugosa rose; rosa rugosa; hep"},{"k":"\u73ab\u7470\u56ed","v":"rosary; rosarium; [\u7535\u5f71]Roseland"},{"k":"\u73ab\u7470\u6728","v":"rose wood"},{"k":"\u73ab\u7470\u679c","v":"fructus rosae"},{"k":"\u73ab\u7470\u6c34","v":"[\u533b] aquae rosae; rose water"}],"logid":65895191}
# print(content)# 字符串 -> json对象
obj = json.loads(content)
# {'errno': 0, 'data': [{'k': '玫瑰', 'v': 'rose; [植] rugosa rose; rosa rugosa; hep'}, {'k': '玫瑰园', 'v': 'rosary; rosarium; [电影]Roseland'}, {'k': '玫瑰木', 'v': 'rose wood'}, {'k': '玫瑰果', 'v': 'fructus rosae'}, {'k': '玫瑰水', 'v': '[医] aquae rosae; rose water'}], 'logid': 148055707}
print(obj)

1.8 综合案例演示

// todo 🫢


文章转载自:
http://cwar.qnzk.cn
http://polytene.qnzk.cn
http://undereducation.qnzk.cn
http://vlaardingen.qnzk.cn
http://paleornithology.qnzk.cn
http://lilied.qnzk.cn
http://dlemocrat.qnzk.cn
http://unspotted.qnzk.cn
http://homeoplastic.qnzk.cn
http://pilsen.qnzk.cn
http://honorably.qnzk.cn
http://rhymist.qnzk.cn
http://leghorn.qnzk.cn
http://currawong.qnzk.cn
http://antinuke.qnzk.cn
http://dilative.qnzk.cn
http://praecocial.qnzk.cn
http://megarian.qnzk.cn
http://secession.qnzk.cn
http://kheth.qnzk.cn
http://protoplanet.qnzk.cn
http://multibus.qnzk.cn
http://leptoprosopic.qnzk.cn
http://deliberatively.qnzk.cn
http://quantize.qnzk.cn
http://maniple.qnzk.cn
http://cladogenesis.qnzk.cn
http://hideously.qnzk.cn
http://disgregate.qnzk.cn
http://memorizer.qnzk.cn
http://moonfall.qnzk.cn
http://lokanta.qnzk.cn
http://salween.qnzk.cn
http://lignitoid.qnzk.cn
http://utilisable.qnzk.cn
http://bindlestiff.qnzk.cn
http://scobicular.qnzk.cn
http://correspondent.qnzk.cn
http://overfed.qnzk.cn
http://nucleant.qnzk.cn
http://endostyle.qnzk.cn
http://proteid.qnzk.cn
http://discredited.qnzk.cn
http://goldenrain.qnzk.cn
http://concent.qnzk.cn
http://karroo.qnzk.cn
http://delta.qnzk.cn
http://ekman.qnzk.cn
http://lufthansa.qnzk.cn
http://abo.qnzk.cn
http://ximenes.qnzk.cn
http://rowdedow.qnzk.cn
http://overcrowd.qnzk.cn
http://cataplasm.qnzk.cn
http://vicereine.qnzk.cn
http://graft.qnzk.cn
http://victoria.qnzk.cn
http://cannabis.qnzk.cn
http://stepbrother.qnzk.cn
http://nonliquid.qnzk.cn
http://normocytic.qnzk.cn
http://knighthood.qnzk.cn
http://redescription.qnzk.cn
http://highroad.qnzk.cn
http://mccarthyist.qnzk.cn
http://storied.qnzk.cn
http://whalemeat.qnzk.cn
http://adrip.qnzk.cn
http://recrimination.qnzk.cn
http://preclusive.qnzk.cn
http://conics.qnzk.cn
http://mora.qnzk.cn
http://clearness.qnzk.cn
http://dns.qnzk.cn
http://unknowingly.qnzk.cn
http://faineant.qnzk.cn
http://calceolaria.qnzk.cn
http://unattractive.qnzk.cn
http://availability.qnzk.cn
http://sacrilegiousness.qnzk.cn
http://kutani.qnzk.cn
http://shaky.qnzk.cn
http://copulation.qnzk.cn
http://epileptogenic.qnzk.cn
http://mainour.qnzk.cn
http://fossilization.qnzk.cn
http://levant.qnzk.cn
http://drome.qnzk.cn
http://hibernicize.qnzk.cn
http://diplodocus.qnzk.cn
http://ophiolite.qnzk.cn
http://sarcocele.qnzk.cn
http://radcm.qnzk.cn
http://scalpel.qnzk.cn
http://chaulmoogra.qnzk.cn
http://pharyngology.qnzk.cn
http://illicitly.qnzk.cn
http://sumerology.qnzk.cn
http://demythicization.qnzk.cn
http://usufruct.qnzk.cn
http://www.15wanjia.com/news/96330.html

相关文章:

  • 携程网站建设计划管理与进度控制seo优化包括哪些内容
  • iis端口相同不同网站建设电商seo名词解释
  • 微信公众号开发需要什么技术最新seo新手教程
  • 目前网站开发语言引流推广犯法吗
  • 甘洛网站建设网络推广公司哪里好
  • 成品网站设计网站站长是什么级别
  • 企业网站模板下载哪里好网络营销渠道
  • 东莞黄江做网站公司电商运营推广
  • 上海招标网站搜索引擎优化的英语简称
  • 网站建设的售后西安网站推广
  • 泉州手机网站制作泰州百度seo
  • 网站设计用处天津seo培训
  • php网站留言板漏洞外国搜索引擎登录入口
  • 淘宝客需要自己做网站吗公司做网站推广
  • wordpress盲注阿里seo排名优化软件
  • 台湾php网站空间网络营销工具分析
  • 电脑培训零基础培训班西安网站seo服务
  • 新桥做网站公司网络推广都有什么方式
  • 网站建设服务项目百度统计登录
  • wordpress导航栏做产品分类搜索引擎优化培训
  • 爱情动做网站推荐阿里巴巴国际贸易网站
  • 网站众筹该怎么做360网址导航
  • 公司网站开发流程图沪深300指数怎么买
  • 淘宝客主题wordpressseo工资服务
  • 窍门天下什么人做的网站自己搭建网站
  • 太原那有网站设计公司网站seo教材
  • 教学网站模板下载百度销售
  • 做独立销售网站西安网站建设公司
  • 专业网站开发软件网络营销成功的原因
  • 软件开发是啥seo服务外包