1、net/http爬虫

net/http配合正则表达式

2、goquery库爬虫

goquery可以避免操作复杂的正则表达式,它可以直接根据url获取一个Document对象,然后根据标签选择器、类选择器和id选择器获取相应的选择对象,进行自定义的操作。

goquery可以灵活的获取页面中的元素。

*** 一个简单的例子,引出goquery中的重要API

*** 操作一、获取html整个原文档

goquery.NewDocument(url string)goquery.NewDocumentFromResponse(*http.Response)goquery.NewDocumentFromReader(*io.Reader)

*** 操作二、选择器
同html的标识方式,在Find函数中。

*** 操作三、Selection相关方法

*** 最后来完成net/http中的网页爬虫

3、colly框架爬虫

*colly.CollectorOnXxx

*** OnXxx函数
主要操作都是由OnXxx函数的参数函数进行处理的

*** 完成图片的爬取