go语言实现百度云爬虫
安装使用
安装go与设置gopath
clone项目到gopath目录
安装依赖
go get github.com/go-sql-driver/mysql
go get github.com/siddontang/go/log
go get github.com/garyburd/redigo/redis
go get github.com/Unknwon/goconfig
修改config.ini配置文件中你自己的MySQL和Redis配置(可以不配Redis),Redis不配或者错误会默认将已经爬取的uk保存到hasIndexKeys.txt文件中,这样做防止重复爬同一位用户多次
创建database名为baidu,然后执行baidu.sql
go run spider.go (当然也可以编译后运行,此时config.ini记得也复制到编译后的文件目录下,然后运行)
直接下载编译好的使用
下载适合自己系统的版本
修改config.ini配置文件,并且放到程序运行的目录下
linux: chmod +x spider,然后直接./spider运行或者nohup ./spider 1>log.out 2>err.out &以后台方式运行;win:直接点击spider.exe运行
爬到数据使用
只需替换链接中uk,shareid或者album_id即可访问
分享专辑链接类型:https://pan.baidu.com/wap/album/info?uk=1112219283&album_id=129732510768224935
普通文件或者文件夹类型:https://pan.baidu.com/wap/link?uk=1112219283&shareid=2109459878