引言
之前用Python写过一个解析网页的脚本,最近开始研究golang,所以准备用golang将其重构,但是这个脚本中使用了到了python中的xpath库,所以研究了下,golang也有对应的库,这个库比我们使用正则从网页中获取我们需要的内容更简单些。
实例
我们以解析网页中的ip+端口为例:网站:https://www.kuaidaili.com/free/inha
1、引入包
2、获得网页内容
3、解析内容
通过上面代码我们就可以从页面中将我们需要的ip+port内容获取到,我们可以根据这种格式解析我们自己想要的网页内容。
4、xpath语法
XPath 语法 | 菜鸟教程
5、其它是实现
golang中多个包来实现xpath,我们再看下libxml2
包引入
解析内容
golang代码
这种方式比第一种方式使用起来麻烦一些,并且接口和文档都不是非常的完善。