golang如何实现抓取IP地址的蜘蛛程序详解

背景

要做IP地址归属地查询，量比较大，所以想先从网上找到大部分的分配数据，写个蜘蛛程序来抓取入库，以后在程序的运行中不断进行维护、更新、完善。

一些关键点

代码解析

按功能模块对核心代码进行说明

ip.go

主进程，实现goroutine的调用。

正则表达式说明

主进程针对所有省有入口页面，取得每省的入口分配给一个协程去处理，每一个入口是这个样子

goroutine 流程

获取ip地址信息

与主进程类似，注意无信息时处理。

IpSpider.go

数据库表结构生成语句

批量写入数据库

循环处理抓取数据，生成批量写入语句及输入参数，请签到出到afc9ebd版本。

批量修改数据库

数据库中的ip_comp字段，是代表运营商信息，需要从运营商页面进入进行数据获取，只需改一下入口url重新运行程序就能正确抓取，但这时入库就不是新增了，而是更新，请签出到4729e66版本。

待改进的方面

把入口url提到配置中，使用策略模式，让匹配规则抽象成策略，目标是不改程序，调整配置文件就可以抓取不同的网页。

项目地址

https://github.com/zhoutk/goTools

使用方法

小结

熟悉了golang语言，了解了一种全新的并发编程模式，熟悉了具体的数据库操作方法，给自己生成了一个方便的工具。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对脚本之家的支持。