- 下载非标准的包,"golang.org/x/net/html"
- 先安装git,使用git命令下载
- 将net包,放到GOROOT路径下
比如:
我的是:GOROOT = E:\go\
所以最终目录是:E:\go\src\golang.org\x\net
注意:如果没有golang.org和x文件夹,就创建
"os"
"net/http"
"fmt"
"io/ioutil"
for _, url := range os.Args[1:] {
resp, err := http.Get(url)
if err != nil {
fmt.Fprintf(os.Stderr, "fetch: %v\n", err)
}
b, err := ioutil.ReadAll(resp.Body)
resp.Body.Close()
if err != nil {
fmt.Fprintf(os.Stderr, "fetch: reading %s: %v\n", url, err)
os.Exit(1)
}
fmt.Printf("%s",b)
}
go build test.com\justin\demo\fetch
注意:test.com\justin\demo\ 是我的项目路径,具体编译根据自己项目路径编译。
- 执行fetch.exe 文件
fetch.exe https://www.qq.com
注意:https://www.qq.com是要爬的网址,配置正确的话,会打印出网址的HTML内容。如果没有,请检查以上步骤是否正确。
"os"
"fmt"
"golang.org/x/net/html"
doc, err := html.Parse(os.Stdin)
if err != nil {
fmt.Fprint(os.Stderr, "findlinks: %v\n", err)
os.Exit(1)
}
for _, link := range visit(nil, doc) {
fmt.Println(link)
}
if n.Type == html.ElementNode && n.Data == "a" {
for _, a := range n.Attr {
if a.Key == "href" {
links = append(links, a.Val)
}
}
}
for c := n.FirstChild; c != nil; c = c.NextSibling {
links = visit(links, c)
}
return links
go build test.com\justin\demo\findlinks
注意:test.com\justin\demo\ 是我的项目路径,具体编译根据自己项目路径编译。
- 执行findlinks.exe 文件
fetch.exe https://www.qq.com | findlinks.exe
- 执行后结果:获取到各种不同形式的超链接