10Golang方式实现贴吧爬虫demo.rar
需积分: 14 68 浏览量
2020-08-27
09:38:45
上传
评论
收藏 3KB RAR 举报
golang爬虫代码,本demo是爬取贴吧的分页,并且可以获取每个URL里面的内容! 实现了找到DIV和href。通过HTML层级的方式匹配正则。 例如: <div class="threadlist_title pull_left j_th_tit ">[\s\S]+?href="(\/p\/[\s\S]+?)" 这种匹配方式。可以爬取任意类的网站。 使用方式,命令行输入:go run 10Golang方式实现贴吧爬虫demo.go