问题引入
作为一名golang开发者,线上环境遇到过好几次连接数暴增问题(mysql/redis/kafka等)。
纠其原因,golang作为常驻进程,请求第三方服务或者资源完毕后,需要手动关闭连接,否则连接会一直存在。而很多时候,开发者不一定记得关闭这个连接。
这样是不是很麻烦?于是有了连接池。顾名思义,连接池就是管理连接的;我们从连接池获取连接,请求完毕后再将连接还给连接池;连接池帮我们做了连接的建立、复用以及回收工作。
在设计与实现连接池时,我们通常需要考虑以下几个问题:
- 连接池的连接数目是否有限制,最大可以建立多少个连接?
- 当连接长时间没有使用,需要回收该连接吗?
- 业务请求需要获取连接时,此时若连接池无空闲连接且无法新建连接,业务需要排队等待吗?
- 排队的话又存在另外的问题,队列长度有无限制,排队时间呢?
golang连接池实现原理
我们以golang http连接池为例,分析连接池的实现原理。
结构体transport
transport结构定义如下:
type transport struct { //操作空闲连接需要获取锁 idlemu sync.mutex //空闲连接池,key为协议目标地址等组合 idleconn map[connectmethodkey][]*persistconn // most recently used at end //等待空闲连接的队列,基于切片实现,队列大小无限制 idleconnwait map[connectmethodkey]wantconnqueue // waiting getconns //排队等待建立连接需要获取锁 connsperhostmu sync.mutex //每个host建立的连接数 connsperhost map[connectmethodkey]int //等待建立连接的队列,同样基于切片实现,队列大小无限制 connsperhostwait map[connectmethodkey]wantconnqueue // waiting getconns //最大空闲连接数 maxidleconns int //每个目标host最大空闲连接数;默认为2(注意默认值) maxidleconnsperhost int //每个host可建立的最大连接数 maxconnsperhost int //连接多少时间没有使用则被关闭 idleconntimeout time.duration //禁用长连接,使用短连接 disablekeepalives bool }
可以看到,连接护着队列,都是一个map结构,而key为协议目标地址等组合,即同一种协议与同一个目标host可建立的连接或者空闲连接是有限制的。
需要特别注意的是,maxidleconnsperhost默认等于2,即与目标主机最多只维护两个空闲连接。这会导致什么呢?
如果遇到突发流量,瞬间建立大量连接,但是回收连接时,由于最大空闲连接数的限制,该联机不能进入空闲连接池,只能直接关闭。结果是,一直新建大量连接,又关闭大量连,业务机器的time_wait连接数随之突增。
线上有些业务架构是这样的:客户端 ===> lvs ===> nginx ===> 服务。lvs负载均衡方案采用dr模式,lvs与nginx配置统一vip。此时在客户端看来,只有一个ip地址,只有一个host。上述问题更为明显。
最后,transport也提供了配置disablekeepalives,禁用长连接,使用短连接访问第三方资源或者服务。
连接获取与回收
transport结构提供下面两个方法实现连接的获取与回收操作。
func (t *transport) getconn(treq *transportrequest, cm connectmethod) (pc *persistconn, err error) {} func (t *transport) tryputidleconn(pconn *persistconn) error {}
连接的获取主要分为两步走:1)尝试获取空闲连接;2)尝试新建连接:
//getconn方法内部实现 if delivered := t.queueforidleconn(w); delivered { return pc, nil } t.queuefordial(w)
当然,可能获取不到连接而需要排队,此时怎么办呢?当前会阻塞当前协程了,直到获取连接为止,或者httpclient超时取消请求:
select { case <-w.ready: return w.pc, w.err //超时被取消 case <-req.cancel: return nil, errrequestcanceledconn …… } var errrequestcanceledconn = errors.new("net/http: request canceled while waiting for connection") // todo: unify?
排队等待空闲连接的逻辑如下:
func (t *transport) queueforidleconn(w *wantconn) (delivered bool) { //如果配置了空闲超时时间,获取到连接需要检测,超时则关闭连接 if t.idleconntimeout > 0 { oldtime = time.now().add(-t.idleconntimeout) } if list, ok := t.idleconn[w.key]; ok { for len(list) > 0 && !stop { pconn := list[len(list)-1] tooold := !oldtime.iszero() && pconn.idleat.round(0).before(oldtime) //超时了,关闭连接 if tooold { go pconn.closeconnifstillidle() } //分发连接到wantconn delivered = w.trydeliver(pconn, nil) } } //排队等待空闲连接 q := t.idleconnwait[w.key] q.pushback(w) t.idleconnwait[w.key] = q }
排队等待新建连接的逻辑如下:
func (t *transport) queuefordial(w *wantconn) { //如果没有限制最大连接数,直接建立连接 if t.maxconnsperhost <= 0 { go t.dialconnfor(w) return } //如果没超过连接数限制,直接建立连接 if n := t.connsperhost[w.key]; n < t.maxconnsperhost { go t.dialconnfor(w) return } //排队等待连接建立 q := t.connsperhostwait[w.key] q.pushback(w) t.connsperhostwait[w.key] = q }
连接建立完成后,同样会调用trydeliver分发连接到wantconn,同时关闭通道w.ready,这样主协程纠接触阻塞了。
func (w *wantconn) trydeliver(pc *persistconn, err error) bool { w.pc = pc close(w.ready) }
请求处理完成后,通过tryputidleconn将连接放回连接池;这时候如果存在等待空闲连接的协程,则需要分发复用该连接。另外,在回收连接时,还需要校验空闲连接数目是否超过限制:
func (t *transport) tryputidleconn(pconn *persistconn) error { //禁用长连接;或者最大空闲连接数不合法 if t.disablekeepalives || t.maxidleconnsperhost < 0 { return errkeepalivesdisabled } if q, ok := t.idleconnwait[key]; ok { //如果等待队列不为空,分发连接 for q.len() > 0 { w := q.popfront() if w.trydeliver(pconn, nil) { done = true break } } } //空闲连接数目超过限制,默认为defaultmaxidleconnsperhost=2 idles := t.idleconn[key] if len(idles) >= t.maxidleconnsperhost() { return errtoomanyidlehost } }
空闲连接超时关闭
golang http连接池如何实现空闲连接的超时关闭逻辑呢?从上述queueforidleconn逻辑可以看到,每次在获取到空闲连接时,都会检测是否已经超时,超时则关闭连接。
那如果没有业务请求到达,一直不需要获取连接,空闲连接就不会超时关闭吗?其实在将空闲连接添加到连接池时,golang同时还设置了定时器,定时器到期后,自然会关闭该连接。
pconn.idletimer = time.afterfunc(t.idleconntimeout, pconn.closeconnifstillidle)
排队队列怎么实现
怎么实现队列模型呢?很简单,可以基于切片:
queue []*wantconn //入队 queue = append(queue, w) //出队 v := queue[0] queue[0] = nil queue = queue[1:]
这样有什么问题吗?随着频繁的入队与出队操作,切片queue的底层数组,会有大量空间无法复用而造成浪费。除非该切片执行了扩容操作。
golang在实现队列时,使用了两个切片head和tail;head切片用于出队操作,tail切片用于入队操作;出队时,如果head切片为空,则交换head与tail。通过这种方式,golang实现了底层数组空间的复用。
func (q *wantconnqueue) pushback(w *wantconn) { q.tail = append(q.tail, w) } func (q *wantconnqueue) popfront() *wantconn { if q.headpos >= len(q.head) { if len(q.tail) == 0 { return nil } // pick up tail as new head, clear tail. q.head, q.headpos, q.tail = q.tail, 0, q.head[:0] } w := q.head[q.headpos] q.head[q.headpos] = nil q.headpos++ return w }