在做爬虫时,经常要用到html解析器提取数据,Python里面有神器lxml,go里面可以选择htmlquery或者goquery。其中htmlquery使用xpath选择器,goquery使用css选择器。就使用体验来说,htmlquery更方便一些,这儿主要介绍htmlquery的一些基本用法。

htmlquery是用于HTML的XPath数据提取库,可让通过XPath表达式从HTML文档中提取数据,使用起来很简单方便。xpath语法见https://www.w3school.com.cn/xpath/xpath_syntax.asp。

htmlquery安装:

go get github.com/antchfx/htmlquery

经常使用到的函数有:

func Parse(r io.Reader) (*html.Node, error):

返回给定Reader的HTML的解析树。

func Find(top *html.Node, expr string) []*html.Node:

搜索与指定XPath表达式匹配的html.Node。

func FindOne(top *html.Node, expr string) *html.Node:

搜索与指定XPath 表达式匹配的html.Node,并返回匹配的html.Node的第一个元素。可以简单理解为FindOne = Find[0]。

func InnerText(n *html.Node) string:

返回对象的开始和结束标记之间的文本。

func SelectAttr(n *html.Node, name string) (val string):

返回指定名称的属性值。

func OutputHTML(n *html.Node, self bool) string:

返回包含标签名称的文本。

package main

import (

"fmt"

htmlquery "github.com/antchfx/xquery/html"

"io/ioutil"

"log"

"net/http"

"strings"

"time"

)

func main() {

urlTemplate := "https://www.kuaidaili.com/free/inha/%d/"

var proxies []string

for i := 1; i < 4; i++ {

html := getHtml(fmt.Sprintf(urlTemplate, i))

root, _ := htmlquery.Parse(strings.NewReader(html))

tr := htmlquery.Find(root, "//*[@id='list']/table/tbody/tr")

for _, row := range tr {

item := htmlquery.Find(row, "./td")

ip := htmlquery.InnerText(item[0])

port := htmlquery.InnerText(item[1])

//type_ := htmlquery.InnerText(item[3])

p := ip + ":" + port

proxies = append(proxies, p)

}

time.Sleep(3 * time.Second)

}

fmt.Println(len(proxies), proxies[0:5])

}

func getHtml(url_ string) string {

req, _ := http.NewRequest("GET", url_, nil)

req.Header.Add("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3776.0 Safari/537.36")

client := &http.Client{Timeout: time.Second * 5}

resp, err := client.Do(req)

if err != nil {

log.Fatalln(err)

}

defer resp.Body.Close()

data, err := ioutil.ReadAll(resp.Body)

if err != nil && data == nil {

log.Fatalln(err)

}

return fmt.Sprintf("%s", data)

}

>go run demo.go

45 [182.34.36.64:9999 113.124.93.135:9999 117.90.252.100:9000 171.15.51.71:9999 1.198.110.34:9999]

有疑问加站长微信联系(非本文作者)