当前位置: 首页 > news >正文

达州做网站怎么把自己的产品推广出去

达州做网站,怎么把自己的产品推广出去,店铺设计网站推荐,跨平台网站制作python爬取图片(lsp篇) 文章目录 前言一、需要用到什么?二、作业模板1.根据网址分析数据(所有爬虫程序都必须对网址进行分析,由于这是个lsp网址就不拿出来分析了)2.套用模板 总结 前言 为了完成老师布置的…

python爬取图片(lsp篇)

文章目录

  • 前言
  • 一、需要用到什么?
  • 二、作业模板
    • 1.根据网址分析数据(所有爬虫程序都必须对网址进行分析,由于这是个lsp网址就不拿出来分析了)
    • 2.套用模板
  • 总结


前言

为了完成老师布置的作业,爬取青春有你2,借用了这个作业的模板爬图片,屡试不爽在这里插入图片描述


一、需要用到什么?

python基础,软件方面根据个人习惯可以使用Anaconda一个集成的可以在浏览器中编程的软件,不需要再安装python包等等比较方便!

二、作业模板

1.根据网址分析数据(所有爬虫程序都必须对网址进行分析,由于这是个lsp网址就不拿出来分析了)

2.套用模板

第一步,从网址中取得你需要的那部分html

import json
import re
import requests
from bs4 import BeautifulSoup
import sys
import os
import datetime
today = datetime.date.today().strftime('%Y%m%d')
def crawl_wiki_data(n):"""爬取html"""headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}url='https://m.mm131.net/more.php?page='n=int(n)+1for page in range(1,n):url=url+str(page)print(url)response = requests.get(url,headers=headers)print(response.status_code)soup=BeautifulSoup(response.content,'lxml')content=soup.find('body')parse_wiki_data(content)url='https://m.mm131.net/more.php?page='

第二步,从那部分html中取得想要的目录名,以及图集的链接地址

def parse_wiki_data(content):"""生成json文件到C:/Users/19509/Desktop/python目录下"""girls=[]bs=BeautifulSoup(str(content),'lxml')all_article=bs.find_all('article')for h2_title in all_article:girl={}#图集girl["name"]=h2_title.find('a',class_="post-title-link").text#链接girl["link"]="https://m.mm131.net"+h2_title.find('a',class_="post-title-link").get('href')girls.append(girl)json_data=json.loads(str(girls).replace("\'","\""))with open('C:/Users/19509/Desktop/python/girls/'+today+'.json','w',encoding='UTF-8') as f:json.dump(json_data,f,ensure_ascii=False)crawl_pic_urls()

第三步,从json文件中,根据图集链接进一步爬取每张图片的链接并,将每张图片的链接作存在数组中,用来传递给下一个函数来下载图片

def crawl_pic_urls():"""爬取每个相册的图片链接"""with open('C:/Users/19509/Desktop/python/girls/'+today+'.json','r',encoding='UTF-8') as file:json_array = json.loads(file.read())headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' }for girl in json_array:name = girl['name']link = girl['link']pic_urls=[]#爬取图集response = requests.get(link,headers = headers)bs = BeautifulSoup(response.content,'lxml')#拉取页数pic=bs.find('div',class_="paging").find('span',class_="rw").textpic=re.findall("\d+",pic)pic_number=int(pic[1])+1#拉取图片链接pic_url=bs.find('div',class_="post-content single-post-content").find('img').get('src')pic_urls.append(pic_url)list=[]for x in range(len(pic_url)):list.append(pic_url[x])for m in range(2,pic_number):all_pic_urls=''list[33]=str(m)for k in range(len(list)):all_pic_urls+=list[k]pic_urls.append(all_pic_urls)headers = {"Referer": link,"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.9 SLBChan/25"}down_pic(name, pic_urls,headers)

第四步下载图片并保存

def down_pic(name,pic_urls,headers):"""下载图片"""path = 'C:/Users/19509/Desktop/python/girls/'+'pic/'+name+'/'if not os.path.exists(path):os.makedirs(path)for i,pic_url in enumerate(pic_urls):try:pic = requests.get(pic_url,headers=headers)string = str(i+1)+'.jpg'with open(path+string,'wb') as f:f.write(pic.content)print('成功下载第%s张图片:%s' %(str(i+1),str(pic_url)))except Exception as e:print('下载第%s张图片时失败:%s' %(str(i+1),str(pic_url)))print(e)continue

最后打印下载路径的绝对路径,同时写主函数运行所有函数

def show_pic_path(path):"""遍历所爬取的每张图片,并打印所有图片的绝对路径"""pic_num=0for (dirpath,dirnames,filenames) in os.walk(path):for filename in filenames:pic_num+=1print("第%d张照片: %s" %(pic_num,os.path.join(dirpath,filename)))print("共爬取lsp图%d张" % pic_num)
if __name__ == '__main__':n=input('要几页:')html = crawl_wiki_data(n)#打印所爬取的选手图片路径show_pic_path('C:/Users/19509/Desktop/python/girls/pic')print("所有信息爬取完成!谢谢")

注意事项:’C:/Users/19509/Desktop/python/girls‘这个是我的目录,不是你的目录,你必须创建属于你的目录和相应的girls文件夹


总结

这篇文章涉及到挺多小细节的,比如下载图片时的headers跟前面的headers不一样,以及拉取图集里面图的张数时用到了正则表达式,存在问题:图集的名字不能改成中文,不知道有没有大佬会的!!


文章转载自:
http://ferropseudobrookite.crhd.cn
http://geologist.crhd.cn
http://trapezoid.crhd.cn
http://mythologise.crhd.cn
http://engrain.crhd.cn
http://spermogonium.crhd.cn
http://punctated.crhd.cn
http://mannheim.crhd.cn
http://harborless.crhd.cn
http://molech.crhd.cn
http://dekalitre.crhd.cn
http://scheme.crhd.cn
http://mucopurulent.crhd.cn
http://gabbro.crhd.cn
http://varna.crhd.cn
http://nonperson.crhd.cn
http://lenticulate.crhd.cn
http://semisecrecy.crhd.cn
http://cispadane.crhd.cn
http://chess.crhd.cn
http://foredate.crhd.cn
http://tearoom.crhd.cn
http://gentle.crhd.cn
http://gatetender.crhd.cn
http://pickaninny.crhd.cn
http://impermeable.crhd.cn
http://lactogen.crhd.cn
http://accessibly.crhd.cn
http://hempy.crhd.cn
http://appulse.crhd.cn
http://weakliness.crhd.cn
http://republicanise.crhd.cn
http://atwitter.crhd.cn
http://birthstone.crhd.cn
http://longsome.crhd.cn
http://unrighteous.crhd.cn
http://antiheroine.crhd.cn
http://nachschlag.crhd.cn
http://newlywed.crhd.cn
http://anociassociation.crhd.cn
http://magazinist.crhd.cn
http://polyarticular.crhd.cn
http://algonkin.crhd.cn
http://flan.crhd.cn
http://allotropy.crhd.cn
http://mausoleum.crhd.cn
http://igfet.crhd.cn
http://spanker.crhd.cn
http://impoliteness.crhd.cn
http://climactic.crhd.cn
http://genealogy.crhd.cn
http://bafflement.crhd.cn
http://diurnal.crhd.cn
http://chasmophyte.crhd.cn
http://meteorite.crhd.cn
http://dizygotic.crhd.cn
http://twelve.crhd.cn
http://knifeboard.crhd.cn
http://mezzotint.crhd.cn
http://shelve.crhd.cn
http://plastics.crhd.cn
http://penetralia.crhd.cn
http://appropriator.crhd.cn
http://justificative.crhd.cn
http://undoubted.crhd.cn
http://numberless.crhd.cn
http://gunmen.crhd.cn
http://ripping.crhd.cn
http://polymeride.crhd.cn
http://laser.crhd.cn
http://doubleheader.crhd.cn
http://smeller.crhd.cn
http://poolroom.crhd.cn
http://elitism.crhd.cn
http://parthenogeny.crhd.cn
http://metacercaria.crhd.cn
http://disdainful.crhd.cn
http://polymerise.crhd.cn
http://ambilingual.crhd.cn
http://alimentotherapy.crhd.cn
http://apostolate.crhd.cn
http://sewerage.crhd.cn
http://furnishment.crhd.cn
http://italics.crhd.cn
http://colorfast.crhd.cn
http://manila.crhd.cn
http://kittiwake.crhd.cn
http://hasidic.crhd.cn
http://trehalase.crhd.cn
http://tilbury.crhd.cn
http://investigatory.crhd.cn
http://dud.crhd.cn
http://unbosom.crhd.cn
http://epiglottal.crhd.cn
http://abdomino.crhd.cn
http://smuttiness.crhd.cn
http://mustiness.crhd.cn
http://inheritance.crhd.cn
http://shihchiachuang.crhd.cn
http://qualificatory.crhd.cn
http://www.15wanjia.com/news/63250.html

相关文章:

  • 北京网站的建立的培训计划和培训内容
  • 网站引导页怎么做.链接是什么意思
  • 河北seo网站优化电话如何推广seo
  • 旅游网站建设的意义网络营销推广技巧
  • 有哪些网站可以找兼职做seo也成搜索引擎优化
  • wordpress首页文章数量成都seo学徒
  • 南昌建设委员网站网络优化大师app
  • 对红色网站建设的建议电商平台运营
  • 宝安做棋牌网站建设多少钱南宁网站建设网络公司
  • ftp免费网站空间怎么写软文
  • 做磁力链网站郑州网络推广专业公司
  • wap 企业网站网站建设产品介绍
  • 成品网站软件大全下载百度搜索一下就知道
  • 外贸网站的推广方法百度推广助手怎么用
  • 怎么做企业销售网站营销推广型网站
  • 用网站做的简历郑州高端网站建设哪家好
  • 漯河网站制作公司投放广告怎么投放
  • 怎么在手机上做企业网站网站开发需要的技术
  • 网站类型怎么分搭建网站要多少钱
  • 专门做微场景的网站东莞网站公司哪家好
  • 阿里巴巴怎样做网站百度广告优化师
  • 适合企业网站的cmsseo网站推广与优化方案
  • 广州制作网站哪家专业百度推广怎么做效果好
  • 济南网站建设哪家强竞价排名软件
  • 华强北 做网站推广赚钱
  • 云和建设局网站如何推广微信公众号
  • 网站建设方案书 备案2022年五月份热点事件
  • 做网站用php还是jsp网上营销是做什么的
  • 网站建设费用清单营销平台是什么意思
  • 福州网站设计大概费用seo收录排名