写在前面

这篇文章的诞生要感谢MIT 6.284课程。在其中一节课中,谈到了多线程的协同的一些问题,其中就涉及到了channel这个概念,并由一段代码引发思考并逐渐深入得到了这篇文章。

引子

课程中有一段代码如下:

在这里插入图片描述

其大致含义是:代码背景是在进行多线程网络爬虫页面url,master线程启动后,从channel通道中读取当前页面的所有url即urls,接着再对这个urls中的每一个url进行爬虫读取新页面中的urls(即执行go worker(u, ch ,fetcher)),每启动一个worker线程便开始向channel中写入该url指向页面中所有包含的urls,以供master线程读取。

问题抛出

那么问题来了,为什么第一层for循环不会range完ch之后便直接结束循环,还需要利用局部变量n来根据特定情况跳出循环?

问题解释

课程上的解释是,这个range会一直阻塞,但并未提出解释。其实,这里很容易分析,因为当前的channel是一个无缓冲通道。所谓无缓冲通道,简单的讲就是两个线程对channel进行操作,一个读,一个写,永远都只能是写一个,读一个按照这样的顺序进行。更详细一些的话,读的那个线程会一直阻塞,直到写的线程向channel中写入一个数据。反之亦然,写的线程在完成一次写操作之后,也会一直阻塞直到另外一个线程完成对该channel的读取操作。上述情况只有一种例外状况,那就是该channel通道被某个线程close掉了:close(channel)。

而这里的range其实不太等同于对数组的range,这里的range实质上为对channel通道的读取。所以,在并未有认为close通道的前提下,该for循环会一直阻塞,不会退出,于是需要设定一个局部状态量n让其退出循环,保证程序的正常运行。当然我们也可以通过close其channel来实现,不过我认为close的时机可能不是非常容易把握。

继续深入

完成上述思考之后,对channel进行了较为的深入的分析,当然分析是以具体的实验展开的。给出下述实验代码:

执行结果直接报错,显示:fatal error: all goroutines are asleep - deadlock!
即:出现死锁。
为什么会出现这种情况?
首先我们来分析一下这段代码的目的:利用channel通道,实现数据的传递,一个线程向channel通道中写入数据,另外一个读取。为什么会出现死锁呢?

首先我们分析一下当前程序有多少个线程在执行,main函数是主线程,调用test函数之后,主线程进入了test函数中继续运行。而在test函数中,采用闭包函数或者说匿名函数的方法新开了一个线程,即goroutine去向已经生成的无缓冲通道中发送数据。发送的过程并非是主线程的任务,所以主线程在执行完go func之后马上跳过继续执行下面的for循环,也就是要将channel中的数据读取出来。

这时,问题来了。现在两个线程,主线程读,另外一个写。在另外一个线程完成最后一个写之后,主线程开始阻塞等待新的写操作,而主线程一旦阻塞整个test函数也无法结束,所以导致了死锁的产生,主线程一直被阻塞。

明白了上述原因之后,解决方法便很简单了,将从channel中读数据的任务交给另外一个线程,而非主线程,主线程直接调用完test函数之后马上结束,其他两个线程的死活都不会影响到程序本身的运行,即主线程的运行。如下:

当然这种方法是偷懒的,这样的操作有可能导致内存溢出等情况发生,所以最好还是让发送数据的线程在发送完之后将channel关闭,如下所示:

输出为:

test is over1234

注意,这里为了保证能够输出1234,需要将主线程休眠1s,确保主线程在退出之前,负责读取的线程能够完成读取工作。

写在后面

Go语言对多线程天然的集成性,让其在处理并发的一些事务时十分方便,但是还是需要注意一些死锁的生成。