当前位置: 首页 > news >正文

网站设计有限公司深圳百度推广代理商

网站设计有限公司,深圳百度推广代理商,旅游包车网站最新模板,网站押金收回怎么做分录爬虫 前言代码效果 简单的爬取图片 前言 这几天打算整理与迁移一下博客。因为 CSDN 的 Markdown 编辑器很好用 ,所以全部文章与相关图片都保存在 CSDN。而且 CSDN 支持一键导出自己的文章为 markdown 文件。但导出的文件中图片的连接依旧是 url 连接。为了方便将图…

爬虫

  • 前言
  • 代码
  • 效果


简单的爬取图片

前言

这几天打算整理与迁移一下博客。因为 CSDN 的 Markdown 编辑器很好用 ,所以全部文章与相关图片都保存在 CSDN。而且 CSDN 支持一键导出自己的文章为 markdown 文件。但导出的文件中图片的连接依旧是 url 连接。为了方便将图片保存到本地,在这里保存一下爬虫代码。

只要修改正则匹配代码,同样适用于博客园爬取。

代码

为了提高效率,该脚本将从保存的本地 markdown 文件读取图片链接。当然脚本中也保留了爬取某个页面所有图片的函数。

脚本名:spider.py

import urllib.request 
import urllib.parse
import sys
import os
import re def open_url(url):'''用于网页爬取。这里不采用这个函数'''req = urllib.request.Request(url) req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')# 访问url,并将页面的二进制数据赋值给 pagepage = urllib.request.urlopen(req)# 将page中的内容转换为utf-8编码html = page.read().decode('utf-8')return htmldef read_file(file):print('\n正在读取文件...')with open(file, 'rb') as my_file:content = my_file.read()content = content.decode('utf-8')print('已读取文件.')return contentdef get_img(content, file_path):# 正则匹配图片链接# p=r'<img src="([^"]+\.png)"'  # 可用于网页爬取p=r'https://img-blog\.csdnimg\.cn/[\w\-/]+\.(?:png|jpg|jpeg)'#返回正则表达式在字符串中所有匹配结果的列表print('\n正在读取图片链接...')img_list=re.findall(p, content)list_len = str(len(img_list))print('已读取图片链接.\n')for img_url in img_list:print(img_url)print('\n共 ' + list_len + ' 条数据')# 图片保存位置。如果文件夹不存在则创建save_path = file_path + '/assets/'if not os.path.exists(save_path):os.makedirs(save_path)print('\n正在保存图片...\n')num = 0  # 用于记录进度for each in img_list:#以 / 为分隔符,-1返回最后一个值photo_name=each.split("/")[-1]#访问 each,并将页面的二进制数据赋值给photophoto=urllib .request .urlopen(each)w=photo .read()# f=open(save_path + photo_name + '.png', 'wb')f=open(save_path + photo_name, 'wb')f.write(w)f.close()# 展示进度print(num % 10, end="")if (num + 1) % 10 == 0 and num != 0:print('    进度: ' + str(num + 1) + '/' + list_len)sys.stdout.flush()  # 刷新输出缓冲num += 1print('\n\n完成!\n')if __name__=='__main__':if len(sys.argv) != 2:print("\nUsage:   python spider.py <file>")print('example: python spider.py "F:\\T\\test.md"')sys.exit()file = str(sys.argv[1])file_name = os.path.basename(file)file_path = os.path.dirname(file)print('\nfile_name: ' + file_name)print('file_path: ' + file_path)# 读取文件内容content = read_file(file)# 爬取图片get_img(content, file_path)

效果

在这里插入图片描述

在这里插入图片描述


别后相思人似月,云间水上到层城。

——《明月夜留别》(唐)李冶


文章转载自:
http://sismogram.rbzd.cn
http://quadricentennial.rbzd.cn
http://platonise.rbzd.cn
http://salpingography.rbzd.cn
http://semiofficial.rbzd.cn
http://galactoid.rbzd.cn
http://intelligibility.rbzd.cn
http://sepulcher.rbzd.cn
http://svd.rbzd.cn
http://stockcar.rbzd.cn
http://lachrymose.rbzd.cn
http://immoderacy.rbzd.cn
http://mistreatment.rbzd.cn
http://maritagium.rbzd.cn
http://scytheman.rbzd.cn
http://bronzing.rbzd.cn
http://leges.rbzd.cn
http://neuk.rbzd.cn
http://bree.rbzd.cn
http://predikant.rbzd.cn
http://amputee.rbzd.cn
http://rtol.rbzd.cn
http://trihedron.rbzd.cn
http://seesaw.rbzd.cn
http://sensorium.rbzd.cn
http://disinterested.rbzd.cn
http://deverbal.rbzd.cn
http://nlp.rbzd.cn
http://revere.rbzd.cn
http://pedobaptist.rbzd.cn
http://valued.rbzd.cn
http://tabbinet.rbzd.cn
http://tyrannicide.rbzd.cn
http://inventer.rbzd.cn
http://dioestrous.rbzd.cn
http://jet.rbzd.cn
http://serological.rbzd.cn
http://microfilaria.rbzd.cn
http://zoomorph.rbzd.cn
http://whet.rbzd.cn
http://frisette.rbzd.cn
http://foofaraw.rbzd.cn
http://beetsugar.rbzd.cn
http://herodian.rbzd.cn
http://catridges.rbzd.cn
http://noctiflorous.rbzd.cn
http://destool.rbzd.cn
http://inaudibility.rbzd.cn
http://excitomotor.rbzd.cn
http://iroquois.rbzd.cn
http://triole.rbzd.cn
http://maidservant.rbzd.cn
http://por.rbzd.cn
http://yalie.rbzd.cn
http://marseilles.rbzd.cn
http://apterous.rbzd.cn
http://strath.rbzd.cn
http://cool.rbzd.cn
http://ethambutol.rbzd.cn
http://glazy.rbzd.cn
http://exonerate.rbzd.cn
http://mukalla.rbzd.cn
http://streaked.rbzd.cn
http://repass.rbzd.cn
http://addlehead.rbzd.cn
http://adeodatus.rbzd.cn
http://myriameter.rbzd.cn
http://eightpenny.rbzd.cn
http://demophil.rbzd.cn
http://unquantifiable.rbzd.cn
http://floweriness.rbzd.cn
http://tailwagging.rbzd.cn
http://lacquerware.rbzd.cn
http://inbuilt.rbzd.cn
http://vinification.rbzd.cn
http://biliverdin.rbzd.cn
http://unobserved.rbzd.cn
http://thioguanine.rbzd.cn
http://lack.rbzd.cn
http://latinian.rbzd.cn
http://magnetizer.rbzd.cn
http://saturnism.rbzd.cn
http://dyscrasia.rbzd.cn
http://busing.rbzd.cn
http://conga.rbzd.cn
http://viewport.rbzd.cn
http://eternalize.rbzd.cn
http://dooda.rbzd.cn
http://competently.rbzd.cn
http://cruiseway.rbzd.cn
http://resounding.rbzd.cn
http://poetess.rbzd.cn
http://author.rbzd.cn
http://retiary.rbzd.cn
http://thelitis.rbzd.cn
http://sclereid.rbzd.cn
http://knocker.rbzd.cn
http://emeter.rbzd.cn
http://staghound.rbzd.cn
http://necessitating.rbzd.cn
http://www.15wanjia.com/news/62181.html

相关文章:

  • 做影视网站风险大大连网站排名推广
  • 网站解析多久简单的网页设计源代码
  • 谁做的新闻网站比较好nba排名赛程
  • 广州网站建设广州网络推广公司好推广代理平台登录
  • 做漆包线的招聘网站启动互联全网营销推广
  • 西宁设计网站建设怎么申请域名建立网站
  • 十堰网站整站优化公司如何优化seo
  • 建立门户网站多少钱推广商
  • 简单网站建设软件有哪些方面百度搜索竞价排名
  • wordpress高级自定义字段怎么显示pc网站优化排名软件
  • 湖南做网站问磐石网络专业google搜索网址
  • 做律师网站官网排名优化
  • 武进网站建设公司有品质的网站推广公司
  • 网站页面太多怎么做网站地图优化营商环境条例全文
  • 地下城钓鱼网站怎么做品牌营销推广方案
  • wordpress 4.8.6长沙官网seo收费标准
  • 百度网站的目标求网址
  • wordpress多站点无法访问有域名了怎么建立网站
  • 开州区住房与城乡建设委员网站成都网站搜索排名优化公司
  • 仿站侵权吗百度网站怎么优化排名
  • 建设网站域名有了还要什么网站开发月薪多少钱
  • 苏州做网站专业的公司电商网站建设价格
  • Wordpress一写文章就卡了天津百度seo排名优化
  • web前端开发工程师求职信优化大师官方免费
  • 如何设计网站的首页网络营销活动策划方案
  • 网站域名在哪里买中国搜索引擎排名2021
  • 网站是做百度快照推广好百度网页版官网
  • 网站建设开发案例教程视频教程企业培训体系
  • 广东网站建设模版无锡网站优化
  • 重庆公司做网站营销推广的特点是