选择chromedp + Headless Chrome
简单点说,chromedp就是golang语言用于调用 Chrome Debugging Protocol 来实现模拟浏览器行为的可以使用简单的方式来驱动浏览器的一个包。使用它的前提只有简单的一个,那就是在你的电脑上安装上Chrome浏览器就可以了。
The simplest way is to run the Go program that uses chromedp inside the chromedp/headless-shell image. That image contains headless-shell, a smaller headless build of Chrome, which chromedp is able to find out of the box.
他的意思就是说:最简单的方法是使用 chromedp 调用 chromedp/headless-shell 镜像。 chromedp/headless-shell 是一个包含较小的Chrome无头浏览器的docker镜像。
安装docker 和安装 chromedp/headless-shell
yum install docker
systemctl daemon-reload
service docker restart
接着安装 chromedp/headless-shell 镜像
docker pull chromedp/headless-shell:latest
等待安装完毕,接着运行 docker镜像
docker run -d -p 9222:9222 --rm --name headless-shell chromedp/headless-shell
"Browser": "Chrome/96.0.4664.110",
"Protocol-Version": "1.3",
"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36",
"V8-Version": "",
"WebKit-Version": "537.36 (@d5ef0e8214bc14c9b5bbf69a1515e431394c62a6)",
"webSocketDebuggerUrl": "ws://"
chromedp 代码调用 chromedp/headless-shell 采集微信公众号文章内容
上面已经可以正常的在 linux下使用 Headless Chrome 无头浏览器了。剩下的就是代码调用它的事了。
定义 keyword、artile struct.go
package main type Keyword struct { Id int64 `json:"id"` Name string `json:"name"` Level int `json:"level"` ArticleCount int `json:"article_count"` LastTime int64 `json:"last_time"` //上次执行时间 } type Article struct { Id int64 `json:"id"` KeywordId int64 `json:"keyword_id"` Title string `json:"title"` Keywords string `json:"keywords"` Description string `json:"description"` OriginUrl string `json:"origin_url"` Status int `json:"status"` CreatedTime int `json:"created_time"` UpdatedTime int `json:"updated_time"` Content string `json:"content"` ContentText string `json:"-"` }
编写核心代码 core.go
package main import ( "context" "fmt" "github.com/chromedp/cdproto/cdp" "github.com/chromedp/chromedp" "log" "net" "net/url" "strings" "time" ) func CollectArticleFromWeixin(keyword *Keyword) []*Article { timeCtx, cancel := context.WithTimeout(GetChromeCtx(false), 30*time.Second) defer cancel() var collectLink string err := chromedp.Run(timeCtx, chromedp.Navigate(fmt.Sprintf("https://weixin.sogou.com/weixin?p=01030402&query=%s&type=2&ie=utf8", keyword.Name)), chromedp.WaitVisible(`//ul[@class="news-list"]`), chromedp.Location(&collectLink), ) if err != nil { log.Println("读取搜狗搜索列表失败1:", keyword.Name, err.Error()) return nil } log.Println("正在采集列表:", collectLink) var aLinks []*cdp.Node if err := chromedp.Run(timeCtx, chromedp.Nodes(`//ul[@class="news-list"]//h3//a`, &aLinks)); err != nil { log.Println("读取搜狗搜索列表失败2:", keyword.Name, err.Error()) return nil } var articles []*Article for i := 0; i < len(aLinks); i++ { href := aLinks[i].AttributeValue("href") href, _ = joinURL("https://weixin.sogou.com/", href) article := &Article{} err = chromedp.Run(timeCtx, chromedp.Navigate(href), chromedp.WaitVisible(`#js_article`), chromedp.Location(&article.OriginUrl), chromedp.Text(`#activity-name`, &article.Title, chromedp.NodeVisible), chromedp.InnerHTML("#js_content", &article.Content, chromedp.ByID), chromedp.Text("#js_content", &article.ContentText, chromedp.ByID), ) if err != nil { log.Println("读取搜狗搜索列表失败3:", keyword.Name, err.Error()) } log.Println("采集文章:", article.Title, len(article.Content), article.OriginUrl) articles = append(articles, article) } return articles } // 重组url func joinURL(baseURL, subURL string) (fullURL, fullURLWithoutFrag string) { baseURL = strings.TrimSpace(baseURL) subURL = strings.TrimSpace(subURL) baseURLObj, _ := url.Parse(baseURL) subURLObj, _ := url.Parse(subURL) fullURLObj := baseURLObj.ResolveReference(subURLObj) fullURL = fullURLObj.String() fullURLObj.Fragment = "" fullURLWithoutFrag = fullURLObj.String() return } //检查是否有9222端口,来判断是否运行在linux上 func checkChromePort() bool { addr := net.JoinHostPort("", "9222") conn, err := net.DialTimeout("tcp", addr, 1*time.Second) if err != nil { return false } defer conn.Close() return true } // ChromeCtx 使用一个实例 var ChromeCtx context.Context func GetChromeCtx(focus bool) context.Context { if ChromeCtx == nil || focus { allocOpts := chromedp.DefaultExecAllocatorOptions[:] allocOpts = append(allocOpts, chromedp.DisableGPU, chromedp.Flag("blink-settings", "imagesEnabled=false"), chromedp.UserAgent(`Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36`), chromedp.Flag("accept-language", `zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-TW;q=0.6`), ) if checkChromePort() { // 不知道为何,不能直接使用 NewExecAllocator ,因此增加 使用 ws:// 来调用 c, _ := chromedp.NewRemoteAllocator(context.Background(), "ws://") ChromeCtx, _ = chromedp.NewContext(c) } else { c, _ := chromedp.NewExecAllocator(context.Background(), allocOpts...) ChromeCtx, _ = chromedp.NewContext(c) } } return ChromeCtx }
编写入口文件 main.go
package main import "log" func main() { word := Keyword{ Name: "golang", } result := CollectArticleFromWeixin(&word) for i, v := range result { log.Println(i, v.Title, len(v.Content), v.OriginUrl) log.Println("纯内容:", v.ContentText) } }
如果你对此代码感兴趣,可以从这里获得github.com/fesiong/goblog 。