C++ 哈希表底层原理与实现：从散列函数到冲突处理

引入：直接定址法

在现实生活中，我们常将一类事物与另一类事物绑定，且这种关系具有内在联系。计算机中也是如此，例如'left'对应'左边'，'string'对应'字符串'。对于数字而言，每个关键字都有对应的存储下标。

当关键字范围比较集中时，比如一组关键字都在 [0, 99] 之间，我们可以开一个 100 个元素的数组，每个关键字的值直接作为存储位置的下标。但如果一组关键字比较分散，如只出现了 1、20、99，此时要开 100 空间的数组会有 97 个空间被浪费，这显然不是我们期望的。因此，关于哈希的故事就此展开。

哈希

哈希（Hash）又称散列，是一种组织数据的方式。从译名来看，有散乱排列的意思。本质就是通过哈希函数把关键字 Key 跟存储位置建立一个映射关系，查找时通过这个哈希函数计算出 Key 存储的位置，进行快速查找。

哈希函数

一个好的哈希函数应该让 N 个关键字被等概率地均匀散列分布到哈希表的 M 个空间中，但实际中很难做到。因此我们要尽量往这个方向去考量设计。

除法散列法（除留余数法）

当数据比较分散的情况下，用直接定址法是无法很好地处理问题的。那是否能仅用较小的空间来保证所有的值都映射到该空间上来呢（保证空间大于值数量）？于是有人提出了除法散列法的概念并对此进行了说明。

除法散列法也叫做除留余数法。假设哈希表的大小为 M，那么通过 key 除以 M 的余数作为映射位置的下标，也就是哈希函数为：h(key) = key % M。（这样即能保证所有的值都在这个空间上）

哈希冲突和负载因子

当使用除法散列法时，要尽量避免 M 为某些值，如 2 的幂、10 的幂等。如果是 $2^X$，那么 key % $2^X$ 本质相当于保留 key 的后 X 位。那么后 X 位相同的值，计算出的哈希值都是一样的，就冲突了。

例如：{63, 31} 看起来没有关联的值，如果 M 是 16（即 $2^4$），保留后 4 位。因为 63 的二进制后 8 位是 00111111，31 的二进制后 8 位是 00011111，后四位都是相同的，那么都会映射到同一个空间上去，这样就产生了冲突，即哈希冲突。因此当使用除法散列法时，建议 M 取不太接近 2 的整数次幂的一个质数（素数）。

负载因子：假设哈希表中已经映射存储了 N 个值，哈希表的大小为 M，M 一定要大于 N，那么负载因子 = N/M，保证负载因子小于 1。负载因子越大，说明 M 是接近于 N 的，则空间利用率越高，相对地哈希冲突的概率越高；负载因子越小，说明 M 的空间很大，则空间利用率低，相对地哈希冲突的概率越低。

处理哈希冲突

实践中哈希表一般还是选择除法散列法作为哈希函数。当然哈希表无论选择什么哈希函数也避免不了冲突，那么在插入数据时，如何解决冲突呢？主要有两种方法：开放定址法和链地址法。

开放定址法

在开放定址法中所有的元素都放到哈希表里。当一个关键字 key 用哈希函数计算出的位置冲突了，则按照某种规则找到一个没有存储数据的位置进行存储。开放定址法中负载因子一定是小于 1 的。这里的规则有三种：线性探测、二次探测、双重探测（此处主要讲解线性探测）。

哈希表有三种状态表示：存在 (EXIST)、空 (EMPTY)、删除 (DELETE)。

enum Status { EMPTY, EXIST, DELETE };
template<class K, class V>
struct HashData {
    pair<K, V> _kv;
    Status _status = EMPTY;
};

template<class K, class ,   = HashFunc<K>>
 HashTable {
:
    ( size = ) :_tables(size), _n() {}
    
:
    vector<HashData<K, V>> _tables;
     _n;
};

static const int __stl_num_primes = 28; static const unsigned long __stl_prime_list[__stl_num_primes] = { 53, 97, 193, 389, 769, 1543, 3079, 6151, 12289, 24593, 49157, 98317, 196613, 393241, 786433, 1572869, 3145739, 6291469, 12582917, 25165843, 50331653, 100663319, 201326611, 402653189, 805306457, 1610612741, 3221225473, 4294967291 }; inline unsigned long __stl_next_prime(unsigned long n) { const unsigned long* first = __stl_prime_list; const unsigned long* last = __stl_prime_list + __stl_num_primes; const unsigned long* pos = lower_bound(first, last, n); return pos == last ? *(last - 1) : *pos; } enum Status { EMPTY, EXIST, DELETE }; template<class K, class V> struct HashData { pair<K, V> _kv; Status _status = EMPTY; }; template<class K> struct HashFunc { size_t operator()(const K& key) { return (size_t)key; } }; template<class K, class V, class Hash = HashFunc<K>> class HashTable { public: HashTable(size_t size = __stl_next_prime(0)) :_tables(size), _n(0) {} bool Insert(const pair<K, V>& kv) { // 扩容 --> 负载因子大于 0.7 if ((double)_n / (double)_tables.size() > 0.7) { HashTable<K, V, Hash> newHT(__stl_next_prime(_tables.size() + 1)); for (size_t i = 0; i < _tables.size(); i++) { if (_tables[i]._status == EXIST) { newHT.Insert(_tables[i]._kv); } } _tables.swap(newHT._tables); } size_t hash0 = kv.first % _tables.size(); size_t hashi = hash0; size_t i = 1; // 如果该点存在 --> 线性探测 while (_tables[hashi]._status != EMPTY) { if (_tables[hashi]._status == EXIST && _tables[hashi]._kv.first == kv.first) { _tables[hashi]._kv = kv; return true; } hashi = (hashi + i) % _tables.size(); i++; } _tables[hashi]._kv = kv; _tables[hashi]._status = EXIST; ++_n; return true; } HashData<K, V>* Find(const K& key) { size_t hash0 = key % _tables.size(); size_t hash1 = hash0; size_t i = 1; while (_tables[hash1]._status != EMPTY) { if (_tables[hash1]._kv.first == key && _tables[hash1]._status != DELETE) { return &_tables[hash1]; } hash1 = (hash1 + i) % _tables.size(); ++i; } return nullptr; } bool Erase(const K& key) { HashData<K, V>* ret = Find(key); if (ret) { ret->_status = DELETE; return true; } else { return false; } } private: vector<HashData<K, V>> _tables; size_t _n; };

static const int __stl_num_primes = 28; static const unsigned long __stl_prime_list[__stl_num_primes] = { 53, 97, 193, 389, 769, 1543, 3079, 6151, 12289, 24593, 49157, 98317, 196613, 393241, 786433, 1572869, 3145739, 6291469, 12582917, 25165843, 50331653, 100663319, 201326611, 402653189, 805306457, 1610612741, 3221225473, 4294967291 }; inline unsigned long __stl_next_prime(unsigned long n) { const unsigned long* first = __stl_prime_list; const unsigned long* last = __stl_prime_list + __stl_num_primes; const unsigned long* pos = lower_bound(first, last, n); return pos == last ? *(last - 1) : *pos; } template<class K, class V> struct HashNode { pair<K, V> _kv; HashNode<K, V>* _next; HashNode(const pair<K, V>& kv) :_next(nullptr), _kv(kv) {} }; // 仿函数 template<class K> struct HashFunc { size_t operator()(const K& key) { return (size_t)key; // --> 针对浮点、负数等情况 } }; // 针对字符串 template<> struct HashFunc<string> { size_t operator()(const string& key) { size_t hash0 = 0; for (auto& ch : key) { // 对不同字符串但 hash0 相同的处理，减少冲突 hash0 *= 131; hash0 += ch; } return hash0; } }; template<class K, class V, class Hash = HashFunc<K>> class HashTable { typedef HashNode<K, V> Node; public: HashTable(size_t size = __stl_next_prime(0)) :_tables(size, nullptr), _n(0) {} bool Insert(const pair<K, V>& kv) { // 不允许冗余 if (Find(kv.first)) return false; Hash hs; // 需要扩容 if (_n == _tables.size()) { vector<Node*> newtables(__stl_next_prime(_tables.size() + 1), nullptr); // 遍历旧表 for (size_t i = 0; i < _tables.size(); i++) { Node* cur = _tables[i]; while (cur) { // 将旧表的每个结点插在新表中 Node* next = cur->_next; size_t hash0 = hs(cur->_kv.first) % newtables.size(); cur->_next = newtables[hash0]; newtables[hash0] = cur; cur = next; } _tables[i] = nullptr; } _tables.swap(newtables); } size_t hash0 = hs(kv.first) % _tables.size(); Node* newnode = new Node(kv); // 头插 newnode->_next = _tables[hash0]; _tables[hash0] = newnode; ++_n; return true; } Node* Find(const K& key) { Hash hs; size_t hashi = hs(key) % _tables.size(); Node* cur = _tables[hashi]; while (cur) { if (cur->_kv.first == key) return cur; cur = cur->_next; } return nullptr; } bool Erase(const K& key) { Hash hs; size_t hash0 = hs(key) % _tables.size(); Node* prev = nullptr; Node* cur = _tables[hash0]; while (cur) { if (cur->_kv.first == key) { if (prev == nullptr) { _tables[hash0] = cur->_next; } else { prev->_next = cur->_next; } --_n; delete cur; return true; } prev = cur; cur = cur->_next; } return false; } ~HashTable() { for (size_t i = 0; i < _tables.size(); i++) { Node* cur = _tables[i]; while (cur) { Node* next = cur->_next; delete cur; cur = next; } _tables[i] = nullptr; } } private: vector<Node*> _tables; size_t _n; };

C++ 哈希表底层原理与实现：从散列函数到冲突处理

引入：直接定址法

哈希

哈希函数

除法散列法（除留余数法）

哈希冲突和负载因子

处理哈希冲突

开放定址法

更多推荐文章

相关免费在线工具

扩容优化

线性探测

线性探测实现

查找和删除

完整代码实现

链地址法

特殊情况：插入元素不是数字

改动

扩容

删除

完整代码实现

更多推荐文章

相关免费在线工具

C++ 哈希表底层原理与实现：从散列函数到冲突处理

引入：直接定址法

哈希

哈希函数

除法散列法（除留余数法）

哈希冲突和负载因子

处理哈希冲突

开放定址法

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

扩容优化

线性探测

线性探测实现

查找和删除

完整代码实现

链地址法

特殊情况：插入元素不是数字

改动

扩容

删除

完整代码实现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具