chromedp(项目地址 https://github.com/chromedp/chromedp)用于解决反爬虫JS问题,之前笔者就有写了个爬虫工具用到chromedp,踩了些坑,在此记录一下。

使用chromedp爬虫时,如果点击属性为target="_blank"的a标签,上下文仍然停留在当前网页,需要使用其它的容器打开新页面。

package main

import (
    "context"
    "fmt"
    "github.com/chromedp/cdproto/target"
    "github.com/chromedp/chromedp"
    "log"
    "net/http"
    "net/http/httptest"
)

func main() {
    ctx, cancel := chromedp.NewContext(context.Background())
    defer cancel()
    ch := addNewTabListener(ctx)

    err := chromedp.Run(ctx,
        chromedp.Navigate("https://music.migu.cn/v3/music/player/audio"),
        chromedp.SetValue("#search_ipt", "输入要搜索的歌曲名", chromedp.ByID),
        chromedp.Click(`i[class="iconfont cf-nav-sousuo"]`, chromedp.BySearch),
    )
    if err != nil {
        log.Fatal(err)
    }

    newCtx, cancel := chromedp.NewContext(ctx, chromedp.WithTargetID(<-ch))
    defer cancel()

    var res string
    err = chromedp.Run(newCtx,
        chromedp.OuterHTML(`div[class="songlist-body"]`, &res, chromedp.BySearch),
    )
    if err != nil {
        log.Fatal(err)
    }

    // 输出了新打开标签页的html
    fmt.Println(res)
}

/**
 * 注册新tab标签的监听服务
 */
func addNewTabListener(ctx context.Context) <-chan target.ID {
    mux := http.NewServeMux()
    ts := httptest.NewServer(mux)
    defer ts.Close()

    return chromedp.WaitNewTarget(ctx, func(info *target.Info) bool {
        return info.URL != ""
    })
}