golang学习笔记17 爬虫技术路线图，python，java，nodejs，go语言，scrapy主流框架介绍

python，封装好的框架scrapy，其他常用，urllib2，解析用的包的beautifulsoup，配合selenium。以上是随便爬爬。

大型的分布式爬取，难点一个在反反爬，动态ip池，接打码，爬虫行为模式控制，是个体力活;

另一个在爬取和落盘的效率，所以到了一定规模分布式一般用go/java/scala多

用python的scrapy，所有平台都能跑，scrapy是主流方案，各种周边都很成熟，爬视频python有现成的包

python的pyspider框架比较完善，抓取大量网站，解析大量页面时做分布式和后台管理都比较方便

java爬虫配合jsoup也是不错的选择

nodejs主要框架有cheerio、crawler、spiderman

go语言爬虫框架：gocolly/colly，goquery，colly，chromedp，webloop，go_spider，Pholcus

golang学习笔记17 爬虫技术路线图，python，java，nodejs，go语言，scrapy主流框架介绍

go语言爬虫框架：gocolly/colly，goquery，colly，chromedp，webloop，go_spider，Pholcus https://github.com/hu17889/go_spiderPholcus 幽灵蛛重量级爬虫软件(含3种操作界面) - Golang中国https://www.golangtc.com/p/557473c9b09ecc2aa700000bhenrylee2cn/pholcus_lib: 公共维护的Pholcus爬虫规则库https://github.com/henrylee2cn/pholcus_lib

python，封装好的框架scrapy，其他常用，urllib2，解析用的包的beautifulsoup，配合selenium。以上是随便爬爬。大型的分布式爬取，难点一个在反反爬，动态ip池，接打码，爬虫行为模式控制，是个体力活;另一个在爬取和落盘的效率，所以到了一定规模分布式一般用go/java/scala多

用python的scrapy，所有平台都能跑，scrapy是主流方案，各种周边都很成熟，爬视频python有现成的包

python的pyspider框架比较完善，抓取大量网站，解析大量页面时做分布式和后台管理都比较方便

java爬虫配合jsoup也是不错的选择

nodejs主要框架有cheerio、crawler、spiderman：

用nodejs爬指定的少量网站，用request加cheerio就足够了cheerio | Fast, flexible, and lean implementation of core jQuery designed specifically for the server.https://cheerio.js.org/crawler - npmhttps://www.npmjs.com/package/crawlerltebean/spiderman: a crawler with visualized config boardhttps://github.com/ltebean/spiderman