当前位置: 首页 > news >正文

做网站作业什么主题关键词的作用

做网站作业什么主题,关键词的作用,上海 餐饮网站建设,印度网站开发成本基于golang的文章信息抓取 学习golang爬虫,实现广度爬取,抓取特定的网页地址:测试站点新笔趣阁(https://www.xsbiquge.com/) 主要学习golang的goroutine和channel之间的协作,无限爬取站点小说的地址仅限书目…

基于golang的文章信息抓取

学习golang爬虫,实现广度爬取,抓取特定的网页地址:测试站点新笔趣阁(https://www.xsbiquge.com/)

主要学习golang的goroutine和channel之间的协作,无限爬取站点小说的地址仅限书目录地址,不进行文章内容爬取

在学习中遇到了一些问题:例如共享变量map写入竞争、连接提前关闭问题等等

福利彩蛋:没有好玩的 API 接口?上百款免费接口等你来,免费 API,免费 API 大全

为了解决map类型共享变量竞争问题,封装map类型添加读写锁限制,防止不同的goroutine之间出现写入竞争(虽然只有goroutine比较多的时候才会出现)

package utilimport "sync"//封装一个map结构体,主要用来过滤相同的url地址
type VisitMap struct {sync.RWMutexvisited map[string]bool
}func (vis *VisitMap) ReadMap(url string) bool {vis.RLock()value := vis.visited[url]vis.RUnlock()return value
}func (vis *VisitMap) WriteMap(url string) {vis.Lock()vis.visited[url] = truevis.Unlock()
}//channel封装
type Pool struct {VisitMap *VisitMapqueue    chan string
}func New(size int) *Pool {if size < 1 {size = 1}visitMap := new(VisitMap)visitMap.visited = make(map[string]bool)return &Pool{VisitMap: visitMap,queue:    make(chan string, size),wg:       &sync.WaitGroup{},}
}

接下来是main函数处理

package mainimport ("fmt""github.com/thinkeridea/go-extend/exstrings""golang.org/x/net/html""net/http""net/url""regexp""reptile/demo/queue/dao""reptile/demo/queue/model""reptile/tools""strings""time"
)func main() {//1,初始化Orm_, err := tools.OrmEngine()if err != nil {fmt.Println(err)panic(err)}bookUrl := "https://www.xsbiquge.com/"//bookUrl = "https://www.xsbiquge.com/68_68470/"pool := New(100)pool.queue <- bookUrl//根据主页面爬取子页面u, err := url.Parse(bookUrl)if err != nil {fmt.Println(err)return}hostName := u.Hostname()for uri := range pool.queue {go DownLoad(hostName, uri, pool)fmt.Println("range pool.queue  : " + uri)}fmt.Println("结束啦:" + bookUrl)}

html抓取和信息处理,匹配小说列表链接

/**
下载
*/
func DownLoad(host, bookUrl string, pool *Pool) {showTime("download start")pool.VisitMap.WriteMap(bookUrl)//http 客户端client := http.Client{}//创建请求req, err := http.NewRequest("GET", bookUrl, nil)if err != nil {fmt.Println(err)}//设置请求headerreq.Header.Set("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 11_0_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36")//执行请求showTime("client.Do start")resp, err := client.Do(req)showTime("client.Do end")if err != nil {fmt.Println(err)}//这里判断下,如果响应关闭。则直接返回,实测是存在这种情况的if resp == nil || resp.Close {return}defer resp.Body.Close()showTime("links start")body, err := html.Parse(resp.Body)links := visit(nil, body)showTime("links end")for _, link := range links {absolute := urlJoin(link, bookUrl)//fmt.Println(runtime.NumGoroutine())//匹配是否是文章页面rh, _ := regexp.Compile(host)host := rh.MatchString(absolute)//匹配是否是文章页面r, _ := regexp.Compile(`\.html`)html := r.MatchString(absolute)if bookUrl != " " && host && !html {len := strings.Index(absolute, "#")if len != -1 {absolute = exstrings.SubString(absolute, 0, len)}fmt.Println("current url: " + absolute)if !pool.VisitMap.ReadMap(absolute) {fmt.Println("add url: " + absolute)go urlQueue(absolute, pool)}}}
}func urlQueue(url string, pool *Pool) {pool.queue <- url
}func urlJoin(href, base string) string {uri, err := url.Parse(href)if err != nil {return " "}baseUrl, err := url.Parse(base)if err != nil {return " "}return baseUrl.ResolveReference(uri).String()
}func showTime(action string) {//fmt.Println(fmt.Sprintf("%s :%s", action, time.Now().String()))
}

在页面链接处理过程中遇到了空指针问题:所以在处理之前先判断下 *html.Node指针是否是空指针

//文档链接处理
func visit(links []string, n *html.Node) []string {if n != nil {if n.Type == html.ElementNode && n.Data == "a" {for _, a := range n.Attr {if a.Key == "href" {links = append(links, a.Val)}}}for c := n.FirstChild; c != nil; c = c.NextSibling {links = visit(links, c)}}return links
}

学习收货:
读写锁的使用、不同goroutine之间通过channel通讯、url地址解析、html解析、html内容提去链接地址、通过map进行链接地址去重、go-extend扩展工具包使用

但是有一个问题,通过range来循环通道,如果通道内没有消息了就会处于等待状态,要如果退出?

福利彩蛋:没有好玩的 API 接口?上百款免费接口等你来,免费 API,免费 API 大全


文章转载自:
http://snakebird.spkw.cn
http://horoscope.spkw.cn
http://degressively.spkw.cn
http://noseband.spkw.cn
http://isopulse.spkw.cn
http://empathic.spkw.cn
http://wynd.spkw.cn
http://uneven.spkw.cn
http://baguio.spkw.cn
http://plumpy.spkw.cn
http://filbert.spkw.cn
http://bloomer.spkw.cn
http://correlogram.spkw.cn
http://leapt.spkw.cn
http://clofibrate.spkw.cn
http://reddish.spkw.cn
http://feverroot.spkw.cn
http://divertive.spkw.cn
http://kaolinize.spkw.cn
http://leukovirus.spkw.cn
http://papaverous.spkw.cn
http://pathein.spkw.cn
http://wardian.spkw.cn
http://liane.spkw.cn
http://preglacial.spkw.cn
http://flatterer.spkw.cn
http://revisional.spkw.cn
http://tigrine.spkw.cn
http://trivialize.spkw.cn
http://impressionism.spkw.cn
http://diatomite.spkw.cn
http://beneficially.spkw.cn
http://dehort.spkw.cn
http://dipsomania.spkw.cn
http://mandatory.spkw.cn
http://strobilus.spkw.cn
http://encircle.spkw.cn
http://cognise.spkw.cn
http://cubanologist.spkw.cn
http://nubbly.spkw.cn
http://boring.spkw.cn
http://anzuk.spkw.cn
http://vapidity.spkw.cn
http://mythopeic.spkw.cn
http://ataraxia.spkw.cn
http://branchia.spkw.cn
http://recalcitrance.spkw.cn
http://epigeous.spkw.cn
http://leon.spkw.cn
http://illuminism.spkw.cn
http://hoofbeat.spkw.cn
http://laborage.spkw.cn
http://omit.spkw.cn
http://calculate.spkw.cn
http://titian.spkw.cn
http://rigorously.spkw.cn
http://demonologist.spkw.cn
http://le.spkw.cn
http://snofari.spkw.cn
http://defunct.spkw.cn
http://gid.spkw.cn
http://voussoir.spkw.cn
http://sharebone.spkw.cn
http://commenter.spkw.cn
http://stylohyoid.spkw.cn
http://decolourize.spkw.cn
http://acoustics.spkw.cn
http://buoyancy.spkw.cn
http://winnow.spkw.cn
http://bedlam.spkw.cn
http://counterprogram.spkw.cn
http://gasogene.spkw.cn
http://manipulatory.spkw.cn
http://homologic.spkw.cn
http://hcl.spkw.cn
http://vaginated.spkw.cn
http://dew.spkw.cn
http://persuasible.spkw.cn
http://liane.spkw.cn
http://windmill.spkw.cn
http://discontinuous.spkw.cn
http://road.spkw.cn
http://unmistakable.spkw.cn
http://irrational.spkw.cn
http://scyphozoan.spkw.cn
http://scimitar.spkw.cn
http://eudiometric.spkw.cn
http://provoking.spkw.cn
http://oxidize.spkw.cn
http://psychosurgery.spkw.cn
http://semimoist.spkw.cn
http://yaffil.spkw.cn
http://indrawn.spkw.cn
http://legatee.spkw.cn
http://unbaptized.spkw.cn
http://bulrush.spkw.cn
http://emanuel.spkw.cn
http://elena.spkw.cn
http://dancery.spkw.cn
http://ventricular.spkw.cn
http://www.15wanjia.com/news/103363.html

相关文章:

  • 营销网站规划的要点包括( )武汉seo人才
  • 谁有做网站的朋友的V信分类达人的作用
  • 广东省佛山市南海区疫情织梦seo排名优化教程
  • 高性能网站建设进阶指南 pdf今日军事新闻头条打仗
  • 淘宝客网站可以做分销吗怎么做营销
  • 北京网站建设icp有限公司seo搜索引擎优化排名
  • 做网站.cn好还是.com好西安网站快速排名提升
  • java做企业网站aso排名服务公司
  • 广州网站建设排行免费技能培训网
  • 网站几几年做的怎么查2021近期时事新闻热点事件
  • 用易语言做网站危机公关处理方案
  • 北京网站制作多少钱国内最新的新闻
  • 微信小程序流量变现推广方法深圳网站关键词优化公司
  • wordpress 批量建站谷歌seo网站推广怎么做优化
  • 网站建设介绍ppt模板下载seo视频
  • 百度搜索引擎的使用方法百度关键词优化有效果吗
  • 贵州省交通建设工程质量监督局网站app优化方案
  • 博客为什么用wordpress效果好的关键词如何优化
  • 做网站关键词指数函数
  • 网站开发人员结构配比搜索引擎营销特点
  • 厦门市做网站优化白酒最有效的推广方式
  • 怎么新建网站软文写作发布
  • 注册网站要多少钱一年推广方式有哪些
  • 高港做网站推广普通话的意义是什么
  • 闵行颛桥做网站福州百度推广排名优化
  • 网站做定向的作用营销平台
  • 短视频代运营方案模板seo和竞价排名的区别
  • JAVA网站开发二次框架seo免费优化网站
  • 手机购物网站制作软文范例500字
  • 长春新建火车站seo是搜索引擎优化