C++ 高性能内存池设计与实现

项目介绍

当前项目是实现一个高并发的内存池，原型参考 Google 开源项目 TCMalloc（Thread-Caching Malloc），即线程缓存的 malloc。它实现了高效的多线程内存管理，用于替代系统的内存分配相关函数（malloc、free）。

本项目涉及 C/C++、数据结构（链表、哈希桶）、操作系统内存管理、单例模式、多线程、互斥锁等知识。

基础知识补充

定位 new

new(obj) T; 是 placement new（定位 new）的使用，它是 C++ 中的一种特殊的内存分配方式。

在 C++ 中，new 通常用于动态分配内存并构造对象，例如：

T* obj = new T(); // 这会分配内存并调用 T 的构造函数

然而，new(obj) T; 则是定位 new 的用法。它并不分配内存，而是在指定的内存位置（由 obj 指向的地址）上构造对象。也就是说，obj 必须是一个指向已经分配内存的指针，这块内存已经存在并且足够大来容纳一个 T 类型的对象。

语法结构：

new (pointer) T(args);

pointer：指向已分配内存的位置。这块内存已经预先分配好，通常由 malloc、内存池或者其他方式分配。
T：对象的类型。
args：传递给 T 类型构造函数的参数。

为什么需要 Placement New？在常规的 new 操作中，new 关键字不仅分配内存，还会调用构造函数来初始化对象。这样会额外的进行一次内存分配。然而，在很多情况下，你可能已经分配了内存，并且只想在这些内存位置上创建对象。这时，placement new 就非常有用了。

工作原理：

不进行内存分配：placement new 不会调用 operator new（即不会分配内存）。它假定内存已经由你提供，且这块内存足够大。
调用构造函数：placement new 只是用来调用指定内存位置的构造函数。
返回对象的指针：new(obj) T; 会返回指向 obj 的指针，指向已经初始化的对象。

销毁对象：使用 placement new 构造的对象并不使用普通的 delete 来销毁。普通 delete 会调用析构函数并释放内存，而 placement new 并不负责释放内存。因此，如果你通过 placement new 构造了对象，你需要显式调用对象的析构函数，并确保内存不会泄漏：

obj->~T(); // 显式调用析构函数

总结：

new (obj) T; 是 placement new，用于在已分配的内存上构造对象。
它不会分配内存，而是直接在指定的内存位置上调用构造函数。
适用于内存池、缓存池等需要手动管理内存的场景。

#pragma once #include<iostream> #include<vector> #include <new> #include <time.h> using std::cout; using std::endl; #ifdef _WIN32 #include <Windows.h> #else // linux 下 brk mmap 等 linux 中的头文件 #endif // 直接去堆上按页申请空间 inline static void* SystemAlloc(size_t kpage) { #ifdef _WIN32 void* ptr = VirtualAlloc(0, kpage << 13, MEM_COMMIT | MEM_RESERVE, PAGE_READWRITE); #else // linux 下 brk mmap 等 #endif if (ptr == nullptr) throw std::bad_alloc(); return ptr; } ////定长内存池 //template<size_t N> //class ObjectPool //{}; //用 T 也可以使定长内存池，因为 T 也是固定的 template<class T> class ObjectPool { public: T* New() { T* obj = nullptr; // 优先把还回来内存块对象，再次重复利用 if (_freeList) { void* next = *((void**)_freeList); obj = (T*)_freeList; _freeList = next; } else { // 剩余内存不够一个对象大小时，则重新开大块空间 if (_remainingBytes < sizeof(T)) { _remainingBytes = 128 * 1024; //_memory = (char*)malloc(_remainingBytes);//128k 的空间 _memory = (char*)SystemAlloc(_remainingBytes >> 13);//128k 的空间 //记得检查一下 if (_memory == nullptr) { throw std::bad_alloc(); } } obj = (T*)_memory; size_t objSize = sizeof(T) < sizeof(void*) ? sizeof(void*) : sizeof(T); _memory += objSize; _remainingBytes -= objSize; } // 对已经有的空间进行初始化 // 定位 new，显示调用 T 的构造对象初始化 // new(obj) T; 是一种在已分配内存中直接构造对象的方法， // 它不会重新分配内存，而是将对象的数据构造到指定的内存位置上。 new(obj)T; return obj; } void Delete(T* obj) { // 显示调用析构函数清理对象 obj->~T(); // 头插 *(void**)obj = _freeList; _freeList = obj; } private: // 用 char*更方便因为一个一个字节的加更方便，1 字节好控制 //void* _memory; char* _memory = nullptr;//指向大块内存的指针 void* _freeList = nullptr;//还回来过程链接的自由链表的头指针 size_t _remainingBytes = 0;//大块内存在切分过程中剩余字节空间大小 }; // 测试性能 struct TreeNode { int _val; TreeNode* _left; TreeNode* _right; TreeNode() :_val(0), _left(nullptr), _right(nullptr) {} }; void TestObjectPool() { // 申请释放的轮次 const size_t Rounds = 3; // 每轮申请释放多少次 const size_t N = 100000; std::vector<TreeNode*> v1; v1.reserve(N); size_t begin1 = clock(); for (size_t j = 0; j < Rounds; ++j) { for (int i = 0; i < N; ++i) { v1.push_back(new TreeNode); } for (int i = 0; i < N; ++i) { delete v1[i]; } v1.clear(); } size_t end1 = clock(); std::vector<TreeNode*> v2; v2.reserve(N); ObjectPool<TreeNode> TNPool; size_t begin2 = clock(); for (size_t j = 0; j < Rounds; ++j) { for (int i = 0; i < N; ++i) { v2.push_back(TNPool.New()); } for (int i = 0; i < N; ++i) { TNPool.Delete(v2[i]); } v2.clear(); } size_t end2 = clock(); cout << "new cost time:" << end1 - begin1 << endl; cout << "object pool cost time:" << end2 - begin2 << endl; }

#pragma once #include<iostream> #include<thread> #include<vector> #include<algorithm> #include <new> #include <time.h> #include <assert.h> #include <mutex> using std::cout; using std::endl; static const size_t MAX_BYTES = 256;//最大内存 k static const size_t NFREELIST = 256;//总的桶个数 #ifdef _WIN64 typedef unsigned long long PAGE_ID; #elif _WIN32 typedef size_t PAGE_ID; #elif //Linux 的 #endif static void*& NextObj(void* obj) { return *(void**)obj; } //管理切分好的小对象的自由链表 class FreeList { public: void Push(void* obj) { assert(obj); //头插 //*(void**)obj = _freeList; NextObj(obj) = _freeList; _freeList = obj; } void PushRange(void* start, void* end) { NextObj(end) = _freeList; _freeList = start; } void* Pop() { assert(_freeList); //头删 void* obj = _freeList; _freeList = NextObj(obj); return obj; } bool Empty() { return _freeList == nullptr; } size_t& MaxSize() { return _maxSize; } private: void* _freeList = nullptr; size_t _maxSize = 1; }; //计算对象大小的对齐映射规则 class SizeClass { public: // 整体控制在最多 10% 左右的内碎片浪费 // [1,128] 8byte 对齐 freelist[0,16) // [128+1,1024] 16byte 对齐 freelist[16,72) // [1024+1,81024] 128byte 对齐 freelist[72,128) // [8*1024+1,641024] 1024byte 对齐 freelist[128,184) // [64*1024+1,256*1024] 8*1024byte 对齐 freelist[184,208) //简单版本计算对齐数 //size_t _RoundUp(size_t size, size_t alignNum) //{ // size_t alignSize; // if (size % alignNum != 0) // { // alignSize = (size / alignNum + 1) * alignNum; // } // else // { // alignSize = size; // } // return alignSize; //} //复杂版本计算对齐数 static inline size_t _RoundUp(size_t bytes, size_t AlignNum) { return (((bytes)+AlignNum - 1) & ~(AlignNum - 1)); } //对齐大小计算 static inline size_t RoundUp(size_t size) { if (size <= 128) { return _RoundUp(size, 8);//8 字节对齐 } else if (size <= 1024) { return _RoundUp(size, 16);//16 字节对齐 } else if (size <= 8*1024) { return _RoundUp(size, 128);//128 字节对齐 } else if (size <= 64*1024) { return _RoundUp(size, 1024);//1024 字节对齐 } else if (size <= 256*1024) { return _RoundUp(size, 8*1024);//8 字节对齐 } else { assert(false); return -1; } } //简单计算桶的下标 //size_t _Index(size_t bytes, size_t alignNum) //{ // if (bytes % alignNum == 0) // { // return bytes / alignNum - 1; // } // else // { // return bytes / alignNum; // } //} //复杂计算桶的下标 static inline size_t _Index(size_t bytes, size_t align_shift) { return ((bytes + (1 << align_shift) - 1) >> align_shift) - 1; } // 计算映射的哪一个自由链表桶 static inline size_t Index(size_t bytes) { assert(bytes <= MAX_BYTES); // 每个区间有多少个链 static int group_array[4] = { 16, 56, 56, 56 }; if (bytes <= 128) { return _Index(bytes, 3); } else if (bytes <= 1024) { return _Index(bytes - 128, 4) + group_array[0]; } else if (bytes <= 81024) { return _Index(bytes - 1024, 7) + group_array[1] + group_array[0]; } else if (bytes <= 64 * 1024) { return _Index(bytes - 8 * 1024, 10) + group_array[2] + group_array[1] + group_array[0]; } else if (bytes <= 256 * 1024) { return _Index(bytes - 64 * 1024, 13) + group_array[3] + group_array[2] + group_array[1] + group_array[0]; } else { assert(false); } return -1; } // 一次 thread cache 从中心缓存获取多少个 static size_t NumMoveSize(size_t size) { assert(size > 0); // [2, 512], 一次批量移动多少个对象的 (慢启动) 上限值 // 小对象一次批量上限高 // 小对象一次批量上限低 int num = MAX_BYTES / size; if (num < 2) num = 2; if (num > 512) num = 512; return num; } }; // 管理多个连续页大块内存跨度结构 struct Span { PAGE_ID _pageId = 0; // 大块内存起始页的页号 size_t _n = 0; // 页的数量 Span* _next = nullptr; // 双向链表的结构 Span* _prev = nullptr; size_t _useCount = 0; // 切好小块内存，被分配给 thread cache 的计数 void* _freeList = nullptr; // 切好的小块内存的自由链表 }; class SpanList { public: SpanList() { _head = new Span; _head->_next = _head; _head->_prev = _head; } void Insert(Span*pos,Span*newSpan) { assert(newSpan); assert(pos); Span* prev = pos->_prev; // prev newspan pos prev->_next = newSpan; newSpan->_prev = prev; newSpan->_next = pos; pos->_prev = newSpan; } void Erase(Span* pos) { assert(pos); assert(pos != _head); Span* prev = pos->_prev; Span* next = pos->_next; prev->_next = next; next->_prev = prev; } private: Span* _head; public: std::mutex _mtx;//桶锁 };

#include"ThreadCache.h" #include"CentralCache.h" void* ThreadCache::FetchFromCentralCache(size_t index, size_t size) { // 慢开始反馈调节算法 // 1. 最开始不会一次向 central cache 一次批量要太多，因为要太多了可能用不完 // 2. 如果你不断需要这个 size 大小内存需求，那么 batchNum 就会不断增长，直到上限 // 3. size 越大，一次向 central cache 要的 batchNum 就越小 // 4. size 越小，一次向 central cache 要的 batchNum 就越大 size_t batchNum = std::min(_freeLists[index].MaxSize(), SizeClass::NumMoveSize(size)); if (_freeLists[index].MaxSize() == batchNum) { _freeLists[index].MaxSize() += 1; } void* start = nullptr; void* end = nullptr; //实际多少个，因为可能存在供不应求，但至少有一个 size_t actualNum = CentralCache::GetInstance()->FetchRangeObj(start, end, batchNum, size); assert(actualNum > 1); if (actualNum == 1) { assert(start == end); return start; } else { _freeLists[index].PushRange(NextObj(start), end); return start; } } // 申请和释放内存对象 void* ThreadCache::Allocate(size_t size) { assert(size <= MAX_BYTES); //算一下对齐大小 size_t alignSize = SizeClass::RoundUp(size); //哪一个桶里面下标值 index size_t index = SizeClass::Index(size); if (!_freeLists[index].Empty()) { return _freeLists[index].Pop(); } else { //else 说明这一个桶对应的自由链表没有就要去下一层去取了// 从中心缓存获取对象 // void* FetchFromCentralCache(size_t index, size_t size); return FetchFromCentralCache(index, alignSize);//对齐后的大小 } } void ThreadCache::Deallocate(void* ptr, size_t size) { assert(size <= MAX_BYTES); assert(ptr); //找对映射的自由链表桶，对象插入进去 size_t index = SizeClass::Index(size); _freeLists[index].Push(ptr); }

C++ 高性能内存池设计与实现

项目介绍

基础知识补充

定位 new

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

术语表

什么是内存池

1. 池化技术

2. 内存池

3. 内存池主要解决的问题

3.1 效率问题

3.2 碎片化

3.2.1 外碎片

4. 了解一下 malloc

先设计一个定长的内存池

分配与释放

性能测试

脱离 malloc 直接在堆中

ObjectPool.h

Test.cpp

高并发内存池整体框架设计

高并发内存池--thread cache

申请内存：

释放内存：

计算对象大小的对齐映射规则

Common.h

ThreadCache.h

解决 thread cache 的锁问题

高并发内存池--central cache

申请内存：

释放内存：

高并发内存池--page cache

申请内存：

释放内存：

从堆中申请内存，页号和地址的关系

内存回收

测试

高并发内存池 - 使用定长内存池配合脱离使用 new

释放对象时优化为不传对象大小

测试 + 改错

性能优化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具