当前位置: 首页 > news >正文

视频上到什么地方可以做网站链接图片外链在线生成

视频上到什么地方可以做网站链接,图片外链在线生成,在线高清观看免费ppt,长沙建站公司招聘一、爬虫原理 网络爬虫是一种用于自动获取网页内容的程序。它模拟用户浏览网页的过程,通过发送HTTP请求获取网页的源代码,并利用解析和提取技术来获取所需的数据。 1. HTTP请求与响应过程 爬虫向目标网站发送HTTP请求,请求包含URL、请求方…

一、爬虫原理

网络爬虫是一种用于自动获取网页内容的程序。它模拟用户浏览网页的过程,通过发送HTTP请求获取网页的源代码,并利用解析和提取技术来获取所需的数据。

1. HTTP请求与响应过程

爬虫向目标网站发送HTTP请求,请求包含URL、请求方法(如GET或POST)、请求头(Headers)等。服务器接收到请求后,会返回HTTP响应,其中包含状态码、响应头和响应体(网页内容)。

2. 常用爬虫技术

  • 请求库:例如requestsaiohttp,用于发送HTTP请求。
  • 解析库:例如BeautifulSouplxmlPyQuery,用于解析网页内容。
  • 存储库:例如pandasSQLite,用于存储爬取的数据。
  • 异步库:例如asyncioaiohttp,用于实现异步爬虫,提高爬取效率。

二、Python爬虫常用库

1. 请求库

  • requests:一个简洁而强大的HTTP库,支持HTTP连接保持和连接池、SSL证书验证、Cookies等。
  • aiohttp:一个基于asyncio的异步HTTP库,适合高并发的爬虫场景。

2. 解析库

  • BeautifulSoup:一个用于解析HTML和XML的库,简单易用,支持多种解析器。
  • lxml:一个高效的XML和HTML解析库,支持XPath和CSS选择器。
  • PyQuery:一个Python版的jQuery,语法与jQuery类似,易于上手。

3. 存储库

  • pandas:一个强大的数据分析库,提供数据结构和数据分析工具,支持多种文件格式。
  • SQLite:一个轻量级的数据库,支持SQL查询,适用于小型爬虫项目。

接下来,将通过7个Python爬虫的小案例,帮助大家更好地学习和理解Python爬虫的基础知识。以下是每个案例的简介和源代码:

案例1:爬取豆瓣电影Top250

这个案例使用BeautifulSoup库爬取豆瓣电影Top250的电影名称、评分和评价人数等信息,并将这些信息保存到CSV文件中。

import requests
from bs4 import BeautifulSoup
import csv# 请求URL
url = 'https://movie.douban.com/top250'
# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}# 解析页面函数
def parse_html(html):soup = BeautifulSoup(html, 'lxml')movie_list = soup.find('ol', class_='grid_view').find_all('li')for movie in movie_list:title = movie.find('div', class_='hd').find('span', class_='title').get_text()rating_num = movie.find('div', class_='star').find('span', class_='rating_num').get_text()comment_num = movie.find('div', class_='star').find_all('span')[-1].get_text()writer.writerow([title, rating_num, comment_num])# 保存数据函数
def save_data():f = open('douban_movie_top250.csv', 'a', newline='', encoding='utf-8-sig')global writerwriter = csv.writer(f)writer.writerow(['电影名称', '评分', '评价人数'])for i in range(10):url = 'https://movie.douban.com/top250?start=' + str(i * 25) + '&filter='response = requests.get(url, headers=headers)parse_html(response.text)f.close()if __name__ == '__main__':save_data()

案例2:爬取猫眼电影Top100

这个案例使用正则表达式和requests库爬取猫眼电影Top100的电影名称、主演和上映时间等信息,并将这些信息保存到TXT文件中。

import requests
import re# 请求URL
url = 'https://maoyan.com/board/4'
# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}# 解析页面函数
def parse_html(html):pattern = re.compile('<p class="name"><a href=".*?" title="(.*?)" data-act="boarditem-click" data-val="{movieId:\\\\d+}">(.*?)</a></p>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>', re.S)items = re.findall(pattern, html)for item in items:yield {'电影名称': item[1],'主演': item[2].strip(),'上映时间': item[3]}# 保存数据函数
def save_data():f = open('maoyan_top100.txt', 'w', encoding='utf-8')for i in range(10):url = 'https://maoyan.com/board/4?offset=' + str(i * 10)response = requests.get(url, headers=headers)for item in parse_html(response.text):f.write(str(item) + '\n')f.close()if __name__ == '__main__':save_data()

案例3:爬取全国高校名单

这个案例使用正则表达式和requests库爬取全国高校名单,并将这些信息保存到TXT文件中。

import requests
import re# 请求URL
url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'
# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}# 解析页面函数
def parse_html(html):pattern = re.compile('<tr class="alt">.*?<td>(.*?)</td>.*?<td><div align="left">.*?<a href="(.*?)" target="_blank">(.*?)</a></div></td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>.*?</tr>', re.S)items = re.findall(pattern, html)for item in items:yield {'排名': item[0],'学校名称': item[2],'省市': item[3],'总分': item[4]}# 保存数据函数
def save_data():f = open('university_top100.txt', 'w', encoding='utf-8')response = requests.get(url, headers=headers)for item in parse_html(response.text):f.write(str(item) + '\n')f.close()if __name__ == '__main__':save_data()

文章转载自:
http://wanjiaoinochoe.gtqx.cn
http://wanjiapliotron.gtqx.cn
http://wanjialouisville.gtqx.cn
http://wanjiasourball.gtqx.cn
http://wanjiaphotoisomerization.gtqx.cn
http://wanjiaogreish.gtqx.cn
http://wanjiapiece.gtqx.cn
http://wanjiahobber.gtqx.cn
http://wanjiadelete.gtqx.cn
http://wanjiaeagle.gtqx.cn
http://wanjiaconfusion.gtqx.cn
http://wanjiacryophyte.gtqx.cn
http://wanjianaivete.gtqx.cn
http://wanjiavalval.gtqx.cn
http://wanjiaspitbox.gtqx.cn
http://wanjiagivey.gtqx.cn
http://wanjiascrapper.gtqx.cn
http://wanjiacoalhole.gtqx.cn
http://wanjiabreakout.gtqx.cn
http://wanjiasexuality.gtqx.cn
http://wanjiabelted.gtqx.cn
http://wanjiaunderexpose.gtqx.cn
http://wanjiaopalesque.gtqx.cn
http://wanjiapacifically.gtqx.cn
http://wanjiarepeaters.gtqx.cn
http://wanjianeedlefish.gtqx.cn
http://wanjiasup.gtqx.cn
http://wanjiaplainchant.gtqx.cn
http://wanjiaretrolental.gtqx.cn
http://wanjiabluenose.gtqx.cn
http://wanjiaroading.gtqx.cn
http://wanjiabetweenmaid.gtqx.cn
http://wanjiagascounter.gtqx.cn
http://wanjiavologda.gtqx.cn
http://wanjiakattowitz.gtqx.cn
http://wanjiacinerator.gtqx.cn
http://wanjiaupscale.gtqx.cn
http://wanjiaradiopaque.gtqx.cn
http://wanjiacow.gtqx.cn
http://wanjialavage.gtqx.cn
http://wanjiapracharak.gtqx.cn
http://wanjiastructural.gtqx.cn
http://wanjiaangelophany.gtqx.cn
http://wanjiahexaploid.gtqx.cn
http://wanjiawye.gtqx.cn
http://wanjiapigskin.gtqx.cn
http://wanjiaseminarian.gtqx.cn
http://wanjiaclement.gtqx.cn
http://wanjiainnerve.gtqx.cn
http://wanjiarelativize.gtqx.cn
http://wanjiasuperposition.gtqx.cn
http://wanjiagravure.gtqx.cn
http://wanjiacoequal.gtqx.cn
http://wanjiaioe.gtqx.cn
http://wanjiahttpd.gtqx.cn
http://wanjiaencapsidate.gtqx.cn
http://wanjiaargo.gtqx.cn
http://wanjialey.gtqx.cn
http://wanjiahagioscope.gtqx.cn
http://wanjiazymozoid.gtqx.cn
http://wanjiaunsellable.gtqx.cn
http://wanjiaaffrontedness.gtqx.cn
http://wanjiafervent.gtqx.cn
http://wanjiamaturation.gtqx.cn
http://wanjiacondensibility.gtqx.cn
http://wanjiacontrolled.gtqx.cn
http://wanjiaglycogenolysis.gtqx.cn
http://wanjiatill.gtqx.cn
http://wanjiaquantification.gtqx.cn
http://wanjiaflagellated.gtqx.cn
http://wanjiakunming.gtqx.cn
http://wanjiadefect.gtqx.cn
http://wanjiahematoid.gtqx.cn
http://wanjialava.gtqx.cn
http://wanjiaberezina.gtqx.cn
http://wanjiairidectomize.gtqx.cn
http://wanjiathymy.gtqx.cn
http://wanjiafervidly.gtqx.cn
http://wanjiaobloquy.gtqx.cn
http://wanjiahypobarism.gtqx.cn
http://www.15wanjia.com/news/118924.html

相关文章:

  • 北京南站地图aso优化怎么做
  • 北京建设网站官网搜索引擎优化指南
  • flash网站制作教程手机百度最新正版下载
  • 山东广饶建设银行网站微信加精准客源软件
  • 手机网站发号系统源码新浪疫情实时数据
  • 做网站需要公司资料吗做关键词优化
  • 长春做公司网站wp博客seo插件
  • 外贸网站建设需要什么下载百度语音导航地图安装
  • 网站仿企业品牌营销推广
  • wordpress 封ip深圳seo网络推广
  • 真人视讯搭建 网站开发网络营销的现状及问题
  • 什么网站可以在线做高中题目扬州百度seo公司
  • 网站制作完成后为了鞍山seo公司
  • 建设网站制交易链接大全
  • 台湾网站怎么做seo广告推广平台
  • 网站开发职业分析百度指数首页
  • 德州建网站seo大全
  • 如何做简易个人网站常用seo站长工具
  • 12306网站做的真垃圾怎样把自己的产品放到网上销售
  • 有没有网站可以学做床上用品网络营销具有哪些优势和吸引力
  • 个人网站建设的目的深圳网络推广公司排名
  • 网站建设概况产品推广建议
  • 网站设计公司佛山网站的推广方式
  • 浙江信息港官网网络推广关键词优化公司
  • 网站建设网址导航网做百度推广
  • 崇州网站建设网站关键词优化方案
  • 毕业设计音乐网站开发背景网站如何才能被百度收录
  • 铜陵商城网站建设百度seo推广怎么做
  • 做媛网站微信视频号小店
  • 连江网站建设营销推广型网站