肝！IO编程模型底层原理到net库不得不选择多路复用的原因剖析（golang）

1.IO模型通读

UNIX Network Programming The Sockets Networking API Volume 1 • Third Edition

blocking I/Ononblocking I/OI/O multiplexing (select and poll)signal driven I/O (SIGIO)asynchronous I/O (the POSIX aio_functions)

blockingasynchronoussynchronous communication/ asynchronous communication

blocking

blocking I/O

synchronoussynchronousstatusnotify

synchronous I/O

blockingnonblockingblockingnonblocking程序在等待调用结果（消息，返回值）时的状态

blocking

nonblocking

nonblocking I/O

至此，我们说完了三个IO模型了：blocking I/O 、nonblocking I/O 、asynchronous I/O。

signal-driven I/O

I/O multiplexingnonblocking I/Ononblocking I/Opollingnonblocking I/Ononblocking

上述的五个IO模型对比如下

2.深入谈谈IO多路复用

select、poll、epoll

select、poll、epollblocking I/O

IO多路复用的大概过程就是：

select、poll、epollselectsocketread

IO多路复用相对于阻塞IO而言，真的是银弹吗？其实不然，对于阻塞IO而言system call的次数少于IO多路复用，如果在IO操作较为少的场景下，线程池+阻塞IO是一个更好的选择。

select、poll、epoll

select()

// 四个参数的解析
// nfds:监视对象文件描述符数量
// *readfds:用户检查可读性
// *writefds:用户检查可写性
// *exceptfds:用于检查外带数据
// *timeout:超时等待时间
int select(int nfds, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, struct timeval *timeout);

官方文档描述

select() and pselect() allow a program to monitor multiple file descriptors, waiting until one or more of the file
descriptors become "ready" for some class of I/O operation (e.g.,input possible). A file descriptor is considered
ready if it is possible to perform the corresponding I/O operation (e.g., read(2)) without blocking.

select()允许程序监控多个fd，阻塞等待直到一个或多个fd到达"就绪"状态。理解 select 的关键在于理解 fd_set，为说明方便，取 fd_set 长度为 1 字节，fd_set 中的每一 bit 可以对应一个文件描述符 fd，则 1 字节长的 fd_set 最大可以对应 8 个 fd。（对应的数据结构是位图）

fd_set

FD_SET(int fd, fd_set *fdset);       //将fd加入set集合
FD_CLR(int fd, fd_set *fdset);       //将fd从set集合中清除
FD_ISSET(int fd, fd_set *fdset);     //检测fd是否在set集合中，不在则返回0
FD_ZERO(fd_set *fdset);              //将set清零使集合中不含任何fd

select 的调用过程如下：

0000,00000100,00000101,0001*readfds*readfds0000,0011

select函数的几个特点

复杂度O(n)，轮询的任务交给了内核来做，复杂度并没有变化，数据取出后也需要轮询哪个fd上发生了变动；
用户态还是需要不断切换到内核态，直到所有的fds数据读取结束，整体开销依然很大；
fd_set有大小的限制，目前被硬编码成了「1024」；
fd_set不可重用，每次操作完都必须重置；

select的缺点

最大并发数限制：使用 32 个整数的 32 位，即 32*32=1024 来标识 fd，虽然可修改，但是还有以下第 2, 3 点的瓶颈
每次调用 select，都需要把 fd 集合从用户态拷贝到内核态，这个开销在 fd 很多时会很大
性能衰减严重：每次 kernel 都需要线性扫描整个 fd_set，所以随着监控的描述符 fd 数量增长，其 I/O 性能会线性下降

poll()

// 三个参数的解析
// *fds:pollfd结构体
// nfds:要监视的描述符的数量
// *timeout:超时等待时间
int poll（struct pollfd *fds, nfds_t nfds, int *timeout）;

官方文档描述

poll() performs a similar task to select(2): it waits for one of a set of file descriptors to become ready to 
perform I/O.

poll() 非常像select()，它也是阻塞等待直到一个或多个fd到达"就绪"状态。

「poll()「和」select()「是非常相似的，唯一的区别在于」poll()「摒弃掉了位图算法，使用自定义的结构体」pollfd」，在「pollfd」内部封装了fd，并通过event变量注册感兴趣的可读可写事件（「POLLIN、POLLOUT」），最后把 「pollfd」 交给内核。当有读写事件触发的时候，我们可以通过轮询 「pollfd」，判断revent确定该fd是否发生了可读可写事件。

/* struct pollfd结构类型的数组，用于存放需要检测其状态的Socket描述符；每当调用这个函数之后，系统不会清空这个数组，操作起来较
方便；特别是对于socket连接比较多的情况下，在一定程度上可以提高处理的效率；这一点与select()函数不同，调用select()函数之后，
select()函数会清空它所检测的socket描述符集合，导致每次调用select()之前都必须把socket描述符重新加入到待检测的集合中；因此，
select()函数适合于只检测一个socket描述符的情况，而poll()函数适合于大量socket描述符的情况；   */
struct pollfd{
    int fd;
  //events和revents是通过对代表各种事件的标志进行逻辑或运算构建而成的
  /* events包括要监视的事件，poll用已经发生的事件填充revents。poll函数通过在revents中设置标志POLLHUP、POLLERR和POLLNVAL
  来反映相关条件的存在。不需要在events中对于这些标志符相关的比特位进行设置。如果fd小于0，则events字段被忽略;*/
    short int events;
  /*revents被置为0,标准中没有说明如何处理文件结束。文件结束可以通过revents的标识符POLLHUN或返回0字节的常规读操作来传达。即 
  使POLLIN或POLLRDNORM指出还有数据要读，POLLHUP也可能会被设置。因此，应该在错误检验之前处理正常的读操作;*/
    short int revents;         
};

「poll()」 相对于「select()」，主要的优势是使用了pollfd的结构体：

没有了bitmap大小1024的限制；（poll采用的是链表的形式）
通过结构体中的revents置位；

但是用户态到内核态切换及O(n)复杂度的问题依旧存在(还是要遍历扫描)，poll还有一个特点是“水平触发”，如果报告了fd后，没有被处理，那么下次poll时会再次报告该fd。

select与poll总结

其实select跟poll本质上是没有区别的，两者都是将用户传入的数组拷贝到内核空间，然后查询每个fd对应的设备状态，如果设备就绪则在设备等待队列中加入一项并继续遍历，如果遍历完所有fd后没有发现就绪设备，则挂起当前进程，直到设备就绪或者主动超时，被唤醒后它又要再次遍历fd。这个过程经历了多次无谓的遍历。

epoll登场

等待消息准备好select&poll

select&poll

有100万个客户端同时与一个服务器进程保持着TCP连接。而每一时刻，通常只有几百上千个TCP连接是活跃的(事实上大部分场景都是这种情况)。如何实现这样的高并发？

在select/poll时代，服务器进程每次都把这100万个连接告诉操作系统(从用户态复制句柄数据结构到内核态)，让操作系统内核去查询这些套接字上是否有事件发生，轮询完后，再将句柄数据复制到用户态，让服务器应用程序轮询处理已发生的网络事件，这一过程资源消耗较大，因此，select/poll一般只能处理几千的并发连接。而我们的epoll可以处理数十万的并发处理，别着急，我们接下来一起看看epoll

// epoll_create 创建一个 epoll 实例并返回 epollfd；
int epoll_create(int size); // int epoll_create1(int flags);
// epoll_ctl 注册 file descriptor 等待的 I/O 事件(比如 EPOLLIN、EPOLLOUT 等) 到 epoll 实例上；
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
/* epoll_wait 则是阻塞监听 epoll 实例上所有的 file descriptor 的 I/O 事件，它接收一个用户空间上的一块内存地址 (events 数
组)，kernel 会在有 I/O 事件发生的时候把文件描述符列表复制到这块内存地址上，然后 epoll_wait 解除阻塞并返回，最后用户空间上的
程序就可以对相应的 fd 进行读写了;*/
int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);

epoll的设计和实现与select完全不同。epoll通过在Linux内核中申请一个简易的文件系统(文件系统一般用什么数据结构实现？B+树)。把原

select&poll

调用epoll_create()建立一个epoll对象(在epoll文件系统中为这个句柄对象分配资源)
调用epoll_ctl向epoll对象中添加这100万个连接的套接字
调用epoll_wait收集发生的事件的连接

调用epoll_create方法时，Linux内核会创建一个eventpoll结构体，这个结构体中有两个成员与epoll的使用方式密切相关。eventpoll结构体如下所示：

struct eventpoll{
    ....
    /*红黑树的根节点，这颗树中存储着所有添加到epoll中的需要监控的事件*/
    struct rb_root  rbr;
    /*双链表中则存放着将要通过epoll_wait返回给用户的满足条件的事件*/
    struct list_head rdlist;
    ....
};

每一个epoll对象都有一个独立的eventpoll结构体，用于存放通过epoll_ctl方法向epoll对象中添加进来的事件。这些事件都会挂载在红黑树

中，如此，重复添加的事件就可以通过红黑树而高效的识别出来(红黑树的插入时间效率是logN，其中N为红黑树元素个数)。

而所有添加到epoll中的事件都会与设备(网卡)驱动程序建立回调关系，也就是说，当相应的事件发生时会调用这个回调方法。这个回调方

select&pollselect&poll

在epoll中，对于每一个事件，都会建立一个epitem结构体，如下所示：

struct epitem{
    struct rb_node  rbn;//红黑树节点
    struct list_head    rdllink;//双向链表节点
    struct epoll_filefd  ffd;  //事件句柄信息
    struct eventpoll *ep;    //指向其所属的eventpoll对象
    struct epoll_event event; //期待发生的事件类型
}

epoll_wait 实际上就是去检查 rdlist 双向链表中是否有就绪的 fd，当 rdlist 为空（无就绪 fd）时挂起当前进程，直到 rdlist 非空时进程才被唤醒并返回。

3.从golang的角度看看IO模型

值得一提的是go的netpoll为我们封装了 epoll/kqueue/iocp 这一类的 I/O 事件驱动技术，也就是采用go去编写I/O相关的代码的时候，是不

goroutine-per-connection

是同步的模式去编写异步的逻辑而且对于开发者来说 I/O 是否阻塞是无感知的，也就是说开发者无需考虑 goroutines 甚至更底层的线程、

进程的调度和上下文切换。

结合在Stack Overflow看到比较有趣的讨论

这个提问的Roger Johansson就是好奇:当从文件或网络读取时，Go使用阻塞IO吗?

下面的回答

当你的代码从goroutine被阻塞的时候，其实并没有真正被阻塞

下面的：I would add that the Go runtime scheduler currently (Go 1.6 and below) multiplexes (epoll on Linux, IOCPs on Windows etc) only network I/O syscalls.

主要是说到在Go1.6及以下的时候，Linux是采用了epoll，Windows的话采用的是IOCP

下面还有关于阻塞跟阻塞的一些争论

https://stackoverflow.com/questions/36112445/golang-blocking-and-non-blocking

https://stackoverflow.com/questions/35471480/does-go-block-on-processor-intensive-operations-like-node/35471842#35471842

这个问题有一个很有意思的回答就是：

So, if you have a single goroutine doing something CPU-intensive, it generally won't have an impact on other 
goroutines' ability to run, because there are a bunch of other threads available to run them. If *all* of your 
goroutines are occupied with computation, then it's true that other ones won't get a chance to run until one gives 
up the CPU. This might not *necessarily* be a problem if they're actually getting work done, since all of your CPUs 
are doing actual work, but of course sometimes it can be in latency-sensitive situations.

If *all* of your goroutines are occupied with computation

goroutinethread

从GMP谈谈这个操作吧

system callsystem call_Grunnable

为什么golang只设计了非阻塞（线程角度）

_Grunnable

4.Reactor 模式

给自己挖个坑，golang的Ractor模式,虽然字节内部又或者其他开源框架已经有实现的，但是对于这方面的学习文章还较少，抽空研究怎么拿golang写Reactor

I/O 多路复用(I/O multiplexing) + 非阻塞 I/O(non-blocking I/O)

先看看Wikipedia对于Reactor的解释

The reactor design pattern is an event handling pattern for handling service requests delivered concurrently to a 
service handler by one or more inputs. The service handler then demultiplexes the incoming requests and dispatches
them synchronously to the associated request handlers.

从维基百科当中我们提取几个关键的点:

事件驱动模式（event handling pattern）、可以处理一个或多个输入源（one or more inputs）、The service handler then demultiplexes （多路复用）the incoming requests and dispatches them synchronously to the associated request handlers. （其实就是同步地将输入的事件采用多路复用dispatches 到对应的request handlers）

Reactor Pattern 处理模式中，定义以下三种角色:

「Reactor」 将I/O事件分派给对应的Handler
「Acceptor」 处理客户端新连接，并分派请求到处理器链中
「Handlers」 执行非阻塞读/写任务

在golang当中非阻塞肯定是开goroutine去执行啦，Reactor不能说是一种IO编程模型吧，因为这种是一个IO编程模型的设计，当然Reactor有着自己的演进过程。

几种Reactor还是蛮容易理解的，我这里就不加以赘述了。

单Reactor单线程模型

单Reactor多线程模型

多Reactor多线程模型

Reactor不难理解，中间的代码编写稍微复杂了一些，这个挖好坑再慢慢填坑吧，再说说基于事件驱动的处理模式一共有以下：

「Reactor」
「Proactor」
「Asynchronous Completion Token」
「Acceptor-Connector」