一、内存池的作用
该项目是模仿谷歌的tcmalloc库,例如GoLang上面就有使用。
使用内存池的好处
效率问题: 池化技术即一次申请过量的资源,拿的时候就不用频繁申请了。因为频繁调用malloc,new申请内存空间实际上是比较慢的,如果一次申请大量内存,那么能极大程度提高效率。 缓解内存碎片问题: 内存碎片包括内碎片和外碎片,内碎片在该项目当中可以通过控制每一个内存往多少对齐从而控制。外碎片在该项目的PageCache层能够将小页进行合并,能够一定程度缓解外碎片问题。
项目涉及到的C/C++语言;链表,哈希表等容器;操作系统内存管理模块,多线程,互斥锁;以及单例模式。
开胃菜,定长内存池
二、定长内存池
定长内存池可以用作对象池,若需要频繁申请某个对象,可以用定长内存池来管理。
什么是自由链表:
- 自由链表即不再需要存储数据的链表,而是将一个个内存块链接起来的链表。并且自由链表当中的头插头删的时间复杂度都是O(1)。
原理:
- 从操作系统申请一块大块内存,在用户层进行管理。
- 释放该内存则用freelist(自由链表)将该内存挂起,不可以直接还给操作系统,因为释放一块内存需要从申请的虚拟地址还起,并且一次需要还完。
- 需要申请内存的时候先从自由链表当中找(O(1)操作),如果自由链表当中没有就切割大块内存。
- 释放回来的内存:内存的释放一定是怎么申请,一定也要从头还起,所以对于已经申请的内存并且已经使用完的,我们选择挂在一个链表当中freelist。
所以定长内存池在只申请固定长度内存时性能达到极致,并且不需要考虑内存碎片的问题。
申请内存
注意:申请的内存块要是4/8字节,如果小于这个则无法使用这种方法,因为指针在32位是4字节,在64位是8字节!
代码片段讲解:
if(_memory == nullptr)是一个错误的判断,因为只有第一次_memory会为空,后续即使内存不够开辟一个对象,此时_memory也不是NULL了,所以需要定义一个成员变量记录剩余的字节数,对剩余不足以T的对象空间直接抛弃,后续不会有人使用这块内存空间,不会影响我们的释放和申请逻辑。
if(_remainBytes < sizeof(T))
释放讲解
void Delete(T* obj) { // 显示调用析构函数清理对象 obj->~T();
代码片段讲解:
*(void**)obj = _freeList;_freeList = obj;*(void**)obj
若有内存m1,m2,区分m1 = m2 与 NextObj(m1) = m2
- 赋值是将m2内存的值拷贝。
- NextObj则是将m2的地址进行拷贝到m1的内存上。
当然,若是要替换malloc,上述new,malloc都是要被替换的:
VirtualAlloc就是windows下申请内存的方法。
Linux需要替换成brk和mmap。
介绍每一层的大致作用,避免后面针对每一层的介绍完后忘记前面的作用~
三、大致介绍每一层的作用
thread cache是管理小块内存,如上图,0下标的桶后面挂着都是8字节的内存,是每一个线程都各自私有一个的,他是由线程本地存储(TLS)实现的,thread cache类似有多个定长内存池实现,用户若是需要小于256KB的内存现在这一层寻找,若是能够找到,立马返回,并且这一层的访问由于是每一个线程私有一份,所以不用加锁,效率很高(只涉及单链表的头删)。
central cache
central cache 与thread cache层管理的内存的大小相同,不同的是central cache是管理页,如0下标的桶,管理的都是若干页,一个页的大小8KB,这里的不同字节后面挂着的页是不同的,当下标越大,则桶的页可能会越大。并且central cache的页的内存是已经被切分好若干块的,thread cache申请central cache只能到对应下标处,不能到其它的桶获取内存。
例如,一页8KB,能够切出1024个8字节的小内存,而申请不到一个256KB的内存。后续讲解如何得知该桶后面的页是多大(NumMovePage函数)。
并且需要注意的是访问central cache是需要加桶锁的,central cache还需要起到居中调度的作用,对于某个thread cache的链表过长的时候是会向central cache回收,并且用户申请内存在thread cache没找到经由central cache若找到对应桶有页,就可以用这个页的数据。
解释thread cache为什么要和central cache申请内存的时候对应
方便释放逻辑,若都是从central cache的一个桶获取,那么释放的时候只用锁住一个桶,倘若是多个桶当中获取的,那么需要一次锁住多个桶。
page cache
page cache与前两层不同,不同的桶管理的是不同大小的页,若central cache的桶后挂的内存满足对应的页的大小,就可以往下放,生成一个更大的页。但是由于涉及到大页的合并,所以访问page cache层的时候需要加大锁。
但是不必太过担心效率问题,因为通常来说,分配的逻辑只有合适,到page cache的可能是比较低的。
四、每一层详解
了解了每一层大致的作用,接下来是对于每一层的详解
thread cache
在上面的叙述中,我们知道thread cache是类似多个定长内存池,这个实现起来很简单,但是我们要多少个定长内存池,并且间距怎么设置合适其实更值得思考。
假设我们每8个字节都用一个桶映射:
32768个桶
梯度对齐和按8字节的对比
- 梯度对齐桶数更少,但是申请内存的时候浪费的内碎片会更多。
- 8字节对齐的话内碎片浪费更少,就是桶数过多。
综上,每一个字节都开一个自由链表更加不可能了,所以只能一个梯度设置一个大小,也就是申请的内存可能会给多,但是实际上使用的时候他并不会用的内存的剩余部分,最后没用上的部分称之为内碎片。所以我们需要选择一个合适的方式去对其,保证:桶的数量不会太多,并且空间浪费也处于一个合理的区间。
解决方案:
- 保证每一个桶申请出来最多浪费10%左右的内碎片浪费。
如何定位到我们需要的桶
- 当我们需要一个size大小的空间,去哪一个哈希桶当中找实际上是一个问题。
- 如果我们每次找需要遍历所有桶,那么申请的流程未免太慢了。有一种算法能够O(1)让size找到对应的桶上面找,实际上也是哈希的一种思想。
[1,128]不纳入考虑,因为这个1即使对齐到2都是浪费了50%,总体上看浪费的空间实际上是10%
下图当中浪费率=浪费的空间/实际的空间,分子这里浪费的空间最多是对齐数-1,分母的最小的时候就是浪费率最高,我们看浪费率最高的场景,那么分别就是1+7,129+15,1025+127,8*1024+1025…算出来除了第一个,浪费率都在10%左右。
桶数就是128/8,(1024-128)/16即【128+1,1024】有56个桶
其中RoundUp函数就是让字节对齐到某个梯度。
void* ThreadCache::Allocate(size_t size) { assert(size <= MAX_BYTES); //到对应的桶当中进行申请,若没有则像CentralCache层申请 size_t alignSize = SizeClass::RoundUp(size);//对齐数 size_t index = SizeClass::Index(size);//桶
Index可以通过传进的字节数匹配到访问的对应的桶,由于是按照梯度进行计算,所以Index也需要按照梯度进行计算桶的位置。
void* ThreadCache::Allocate(size_t size) { assert(size <= MAX_BYTES); //到对应的桶当中进行申请,若没有则像CentralCache层申请 size_t alignSize = SizeClass::RoundUp(size);//对齐数 size_t index = SizeClass::Index(size);//桶
RoundUp函数的作用是对齐,类似size为7字节,他就会帮助我们对齐到8字节。
void* ThreadCache::Allocate(size_t size) { assert(size <= MAX_BYTES); //到对应的桶当中进行申请,若没有则像CentralCache层申请 size_t alignSize = SizeClass::RoundUp(size);//对齐数 size_t index = SizeClass::Index(size);//桶
如何让每个线程有独立的threadCache:
倘若设置成全局变量或者是静态变量,那么访问threadcahce的时候就需要加上一把锁,这明显是不好的,而我们采用的方法是tls,thread local storage–线程本地存储,类似线程独享的资源。TLS,是一种变量的存储方式,这个变量在他所在的县城是 全局可访问的,但是不能被其他线程访问到,这样就保持了数据在线程中的独立性。
自由链表结构,方法一览:
central cache
- central cache 与thread cache类似,也是按照对应的大小的对应规则的哈希结构。 并且这个用的是桶锁,虽然centreal cache需要加锁,但是加锁的粒度还是比较小的。span是管理多个连续大块内存跨度的结构
- central cache挂的是一个个的span,span即跨度,它可以将一个span切分成对应桶的大小,一个个切,span是以多个页为单位的内存。
- 由上到下span当中页的数量也是不一样的,因为一个页能切若干个8Byte,但是一个256KB的对象都切不出来。
- centralcache给threadcache的时候给批量,剩余的依旧挂在桶上。
- 自由链表_list用于标识是否页是否被用完,若为nullptr则可以认为该页的内存全部被切割完。但是不能用来判断还剩下多少。
- _usecount 能够标识是否全部还回来了,即_usecount能够用来标识还剩下多少块内存。
总结:
- 即若用完了则由_list标识,若_usecount为0则该Span尚未被使用或已经全部还回。
在Central Cache::GetOneSpan当中切内存块的时候,建议使用尾插,因为这样别人拿到的内存是一块连续的,缓存利用率高。
页号跟进程地址强相关,跟我们的地址是强相关的,跟指针类似,只不过我们这里的跨度更大而已。我们采取一页为8KB的方案。
注意事项:
- 由于页号的大小32/64位用的必须不同,所以说采用ifdef进行条件编译,32位下用size_t,64位用unsinged longlong
- SpanList的桶的数量跟Threadcache的数量相同。
- 由于是桶锁,所以可以直接放在SpanList结构体当中。只有两个或以上线程访问到一个锁的时候会被阻塞。
单例模式的使用:
- 由于多个线程共享一个centralcache,所以central cache可以直接设置成单例。这里设置成饿汉,懒汉都可以。
由于这里小对象可以给多一点,大对象给少一点,所以我们可以用一个NumMoveSize来从thread cache从中心缓存获取若干个对象,这里标识了一次性能够获取的最大对象数,并且这里的值会给一个上限,和一个下限,这里是别人研究好的,但也可以调整;但我们并不是一次就给他申请这么多。所以我们还需要一个慢开始的算法,慢开始的算法需要在每一个桶都添加一个_maxSize字段,标识这个桶曾经一次性最多开辟的对象的数量。// 计算一次向系统获取几个页 // 单个对象 8byte // ... // 单个对象 256KB static size_t NumMovePage(size_t size) { //计算出创建多少对象共需要的字节数,再计算要获取多少页 size_t num = NumMoveSize(size); size_t total_bytes = num * size;
} // 一次从中心缓存获取多少个 static size_t NumMoveSize(size_t size) { //通过一次所需要的对象的大小来计算在哪个桶拿 assert(size > 0);
span指向end的next,end的前四个字节指向空即可。
page cache
page cache 申请规则:
- 在threadcache当中不能出现申请超过256K的内存以及释放256K的内存空间,在ConcurrentAlloc当中就应当做判断,当申请大的内存块的时候应当直接去pageCache当中申请。
- pagecache当中挂着是一个个的span,但是这里的映射规则与前面的不一样,总共128个桶,centralcache找pagecache的时候只关注要找多少页的桶即可。
- 最大的桶为128页,由于单个对象最大时256KB,既可以切出4个最大的内存,已经足够了。
- pageCache的锁用的是大锁,因为他这里用到的时候需要把多个页合并
- 当这个对应的桶没有,可以去后面的桶里面找。如果没有的话就像系统申请一个128页的span。
- 这个128页的span的内存空间是连续的,它可以被切分成1~127的页,但是只要能够合并,最终都可以合并成128页。其实合并成128页就是为了防止要大内存的时候页都是被切分小的这种情况,所以将没有使用的页进行合并是为了减少外碎片。
建立页号到Span的映射原因:
- 因为当内存释放的时候是以指针的形式传参,此时我们内部通过指针可以找到对应的页号,但是页号不能知道是哪一个Span,所以需要建立映射,这样方便更新Span的use_count,从而知道该页是否可以被合并成大页。
为何同时存在is_use和use_count两个字段?
- 有这样一种可能,当pagecache正在合并的时候,由于正好centreal cache层的span有内存块还回,此时这个span的use_count为0,但这个时候他需要获得pagecache的锁再去进行合并,而这个时候已经获取了page cache的大锁的线程若是以use_count为是否在使用的依据的话会将它合并,而它后面也会又合并一次, 那么结果就会错误。
注意:
central cache上获取的前提条件是必须已经挂在central cache对应的桶上面,而page cache获取的页需要手动挂起来。
is_use什么时候设置成true
- 当is_use设置成true的时候应当是span还没挂在central cache,这样设置为true也不用担心就直接被使用了。
is_use什么时候设置成false
- is_use设置成false的时候说明此时可以被合并,那么一定要先从central cache下取下来,防止合并期间又被其他线程从桶当中获取内存。
注意:
用大锁的好处,当有需要一页的span和两页的span,此时只有一个三页的span,若pagecache采取的是桶锁,这个时候1号和2号桶都被不同线程上锁了,此时假设需要1号线程的跑得快,他需要1页,就拿3页的切成1页和2页,这个时候就需要2页的锁,可是2页的被线程占住了,并且他需要3号线程的锁,此时形成了死锁状态。
解决方案:
若是想用桶锁的话,则需要提前判断需要哪些桶,一次性获取锁起来。
如何找到知道需要多少页的span?
- SIzeClass有个函数NumMoveSize,这个函数的作用是通过数量和对象的大小查看所需要的字节数,然后再转化成需要多少页,若不满足1页则给1页。
常用的桶实际上是1~64号桶
- 实际上 256K*2(最大) / 8K = 64,实际上即使申请最大的也只要去找64号桶,65~128的页实际上用的不频繁,所以65~128的页通常是用于挂着待切分,提前储备起来。
- 当由于centralcache的上了桶锁了之后,要不要释放锁再去pagecache层?
- 实际上是可以解掉的,这个时候若有内存还回桶当中,centralcache的时候依旧能够申请内存。这个时候加锁反而会把释放内存也给锁住。
- 并且因为span的use_count为0的已经从central cache解掉了,也不会影响该span,此时释放桶锁能够让其他span都利用起来,没必要在锁着了!
从PageCache获取的span切分成小内存不需要加锁
- 刚获取上来的span既不会挂在page cache,并且也还没有挂着central cache,这就说明了没有人能找到这块span,所以这个时候切分是不需要加锁的,但若要挂回去之前需要加上桶锁。
min的,由于windows.h当中有宏定义,所以这里我们选择使用min。
可以通过这种方式来确认是否来连接上,观察他的内存可以知道是否指向下一个位置。
当size=24的时候,观察下图结果,是尾插并且切分无问题。
五、释放逻辑
由于释放逻辑比较少,所以三层一起讲~
- thread cache释放的时候先往自由链表插入,满足批量内存往central cache的span还。
- central cache的span若use_count 为0表明当前span没有使用,则归还给page cache合并成一个大块内存。
- page cache负责合并use_count为0的span的前后span生成一个不超过128页的大页。
注意:
- ThreadCache::ListTooLong的PopRange这个过程将批量内存获取上来时会设置末尾连接nullptr。
- 需要动态计算PopRange的批量内存,有可能是从不同的span获取的,所以需要对每一块内存动态计算span。指针->页号->span
- span的与页号的映射都在page cache完成,但是并不是span的每一个页号都需要映射。若是申请超过128页的大页,则只需要建立第一页的映射。而返回给central cache的span都需要建立映射,因为这些页会被切成若干个小块内存,所以为了释放的时候能找到span,我们采用全部页建立映射。而挂在page cache的页只需要建立第一页和最后一页的映射,这是为了合并的时候能够找到前一页和后一页。
在我们实现的内存池当中,内碎片只是暂时的,而外碎片如果不采用小页合并成大页,那么外碎片问题则会一直存在。
常规的内存块的释放逻辑告一段落,由于超过256KB的内存是不会经过central cache层的,所以我们这里分开大块内存的申请与释放逻辑来讲。
六、大块内存的申请/释放逻辑
- 由前面可以知道小于256KB是走三层缓存。
- 而大于256KB的则至少一个对象需要32页以上,若是在32页~128页,则申请可以从page cache拿,释放的时候也可以放在pagecache的桶当中。
- 而大于128*8k的内存直接调用系统堆,此时没有用到我们的内存池,释放的时候也是直接释放的,不会放入内存池。
- 由于申请大块内存都会用到NewSpan,所以我们在这里添加申请和释放的逻辑。
// 计算一次向系统获取几个页 // 单个对象 8byte // ... // 单个对象 256KB static size_t NumMovePage(size_t size) { //计算出创建多少对象共需要的字节数,再计算要获取多少页 size_t num = NumMoveSize(size); size_t total_bytes = num * size;
} // 一次从中心缓存获取多少个 static size_t NumMoveSize(size_t size) { //通过一次所需要的对象的大小来计算在哪个桶拿 assert(size > 0);
七、常见问题
用对象池替换new
- 于一个thread cache大概在2000字节左右,对象池的大小在128*1024的话可以开个几十个,所以差不多了。
- 由于threadCache在这里的话开辟是不会轻易释放的,所以我们计算他的大小,让对象池的大小差不多够用。而span是经常进行申请和释放的,所以这里给这个值也够用。
不传对象进行内存释放
- 存储在span的_objsize的是对齐后的大小,通过指针找到页号再去找span,就能够获取他的_objsize,即如果释放内存不传内存大小,就提前存起来。
遇到性能问题的处理
- 采用条件断点(注释有)条件断点在这个项目用于检测是否切分的是否正确好用,查看调用栈帧,配合监控使用定位问题。若遇到死循环,调试模式的全部中断能够帮助你快速定位错误。// 条件断点
性能瓶颈测试
- MapObjectToSpan若是使用的是哈希表是需要加锁的,一开始我所采用的就是哈希表,因为插入过程是可能需要扩容,并且进行单链表的插入,这个过程会导致哈希表的结构发生变化,可能影响到其他线程对其他span的读取。
加入基数树进行优化
- 基数树是建立页号到span的映射,不同的是它的一层基数树是一次性将空间开出来,一层的基数树在32位下是完全没有问题的。
- 两层或者三层的基数树的优点在于不用一次性把数组开出来,通常在64位下使用,由于64位若一次性把页号与span建立映射,所需要的内存是十分多的,所以需要采用两层或三层基数树。
采用基数树不需要加锁的原因:
- 因为往基数树建立映射的时候是span没有在central cache不会给外层使用,并且建立好一次映射关系,后续不需要再建立了,后续都是读了。
vs打包成库
- 两步骤,项目右键属性
属性有常规,点击配置类型。
八、结果展示
release x86下访问不同桶的时候检测的时间。