这篇仅是作为golang性能优化的补充,单纯的自己梳理的脉络,记录一些自己觉得重要的点。

常见的GC算法

常见的gc算法有引用计数、标记-清除、复制整理、标记-清除整理等。其中引用计数、标记-清除的侧重点在于发现可以被回收的对象;复制整理、标记-清除整理的侧重点在于解决由于垃圾回收导致的内存碎片问题。引用计数相对标记清除来说更加简单,在对象的引用数为0时直接清除即可,但是最大的问题就是无法解决循环引用的问题。标记清除可以解决循环引用对象的gc问题,但是在标记-清除时通常需要stop the world(STW),即gc期间需要停止程序的运行。
对于STW的gc,通常会使用分代回收来减少STW的时间。分代回收的思想是大多数对象的生命周期都是很短暂的,如果一个对象已经存活了很长时间,那么这个对象就有很大的可能继续存活下去。按照这个思想,分代回收将对象分为新生代、年轻代、老年代等。越年轻的代的gc会越频繁,越老年的代两次gc之间的间隔越长。
分代可以很好的减少STW的时间,但是要处理代际之间引用的问题。通常的做法是如果年轻代的对象被更老代中的对象引用,那么在年轻代的gc中就忽略该对象;当老年代发生gc时,所有比其年轻的代同时也进行gc。
在python中,就采用了引用计数为主,标记-清除为辅的垃圾回收算法。其中标记-清除算法主要对容器对象起作用,以解决引用计数无法解决的循环引用问题。同时对标记-清除使用分代辅助。

golang的GC算法

go采用三色标记的标记-清除算法。每种语言选择的gc算法都是适应其自身特点的。go和gc相关的特点有并发gc,逃逸分析以及类似tcmalloc的堆内存分配方式。因为其类似tcmalloc的内存分配方式可以有效地避免内存碎片,所以go的gc中不需要额外做内存整理。因为其有逃逸分析,编译器会判断对象是该分配到堆上还是栈上,本身分配到堆上的对象就是倾向于长时间存活的,另外并发gc只有短暂的STW,所以go没有采用分代的思想。

混合写屏障

刚说过go是并发gc,在标记过程中进程可以操作对象,这可能会导致某些应该存活的对象被回收。go采用了混合写屏障的方式来解决这个问题。
混合写屏障的策略为:

  1. gc开始是将栈上的对象全部标记为黑色;
  2. gc过程中所有新增的栈对象标记为黑色;
  3. 堆上新增的对象标记为灰色;
  4. 堆上删除的对象标记为灰色;

(我个人的理解,栈上的对象在gc并不会被回收,其作用仅仅是作为root对象来访达堆对象。)

所以go的gc有两次stw,一次是开始时开启写屏障并将栈上对象全部标黑,另一次是结束时关闭写屏障。

golang中的栈和堆

因为理解了golang的堆栈对理解gc有些帮助,所以就加在这篇了。后面有空再开单章吧。

先抛开golang,聊一聊一般意义上的堆栈。

我们都知道,栈和堆是进程虚拟内存空间的一种划分。在经典的linux进程内存布局中,进程的虚拟内存分为内核空间和用户空间,用户空间从高到低分为栈、堆、bss段、数据段和代码段。栈和堆有不同的特点。栈内存的分配和释放更加简单和快捷,并且其先进后出的特性天然地适合实现过程调用。但是也是因为先进后出的特性导致栈内存的分配和释放不够灵活。堆的分配和释放更加灵活,能够更好地管理内存。但是分配和释放时都需要一定的策略,成本更高。

但其实关于栈和堆我最想说的一点是,这两者都是一段虚拟内存,没有什么本质的不同(不知道这么说有没有错误,欢迎大佬们指正)。这对我们理解很多高级语言的内存管理非常有帮助。

回到golang中,当我们创建goroutine时会为每个goroutine分配一定的栈空间。编译的时候编译器会对我们的代码进行逃逸分析,判断变量是分配在栈上还是堆上。在垃圾回收时会对栈和堆进行不同的处理。但实际上这里所说的栈和堆是对goroutine而言的,都是runtime管理的内存,在进程内存空间的层面上讲是堆内存。也就是说所谓的goroutine所谓的栈,实际是一块堆内存拿来当栈使用。

理解了上面所说的这点,对理解golang的内存分配、gc包括pprof都会有一定的帮助。