1、net/http爬虫
net/http配合正则表达式
2、goquery库爬虫
goquery可以避免操作复杂的正则表达式,它可以直接根据url获取一个Document对象,然后根据标签选择器、类选择器和id选择器获取相应的选择对象,进行自定义的操作。
goquery可以灵活的获取页面中的元素。
*** 一个简单的例子,引出goquery中的重要API
*** 操作一、获取html整个原文档
goquery.NewDocument(url string)goquery.NewDocumentFromResponse(*http.Response)goquery.NewDocumentFromReader(*io.Reader)
*** 操作二、选择器
同html的标识方式,在Find函数中。
*** 操作三、Selection相关方法
*** 最后来完成net/http中的网页爬虫
3、colly框架爬虫
*colly.CollectorOnXxx
*** OnXxx函数
主要操作都是由OnXxx函数的参数函数进行处理的
*** 完成图片的爬取