1. 背景

周末花了两天写了一个爬取、并解析HMDB数据库的工具,为了能够根据下载定义HMDB-ID的数据信息,我特意将涉及到的HMDB-ID存储到一个list.txt文件中,然后逐行读取list.txt文件,将读取到的接口拼接完成的URL后进行访问、下载。 文件中可以根据需要放很多ID,几百上千条是没有问题的。
请添加图片描述

2. 实现

以下代码中创建了很多的gorouting, 通过chan来判断是否结束不过今天看书,书上说推荐使用WaitGroup变量来解决这种问题。有时间再试试waitgroup看看效果

func ReadFile(fileName string) {
	fileName = "conf/" + fileName
	chanNum := GetFileLines(fileName)

	f, err := os.Open(fileName)  <------------------
	if err != nil {
		fmt.Println(err.Error())
		return
	}

	buf := bufio.NewScanner(f)   <------------------
	chs := make([]chan int, chanNum)

	for i := 0; i < chanNum; i++ {
		if !buf.Scan() {   <------------------
			break
		}
		line := buf.Text()  <------------------
		chs[i] = make(chan int)
		switch fileName {
		case "conf/list.txt":
			go Gethtml(line, chs[i])
		case "conf/detailist.txt":
			go GetHmdbDetail(line, chs[i])
		default:
			fmt.Println("文件名称有误")
			return
		}
		time.Sleep(500 * time.Millisecond)
	}
	for _, ch := range chs {
		<-ch
	}
	
}

3. HMDB爬虫工具效果

请添加图片描述
请添加图片描述