STL 哈希表原理与模拟实现

在深入 unordered_map 和 unordered_set 时，我们了解到它们拥有 O(1) 的查找、插入和删除效率。这种高效性能的背后，是哈希表（Hash Table）这一数据结构在支撑。今天我们就来拆解一下哈希表的底层原理，并尝试用 C++ 模拟实现它。

一、哈希概念

哈希（Hash），又称散列，是一种将关键字映射到存储位置的数据组织方式。简单来说，就是通过一个哈希函数，把 Key 和数组下标建立映射关系。查找时，直接计算 Key 对应的下标即可定位数据，从而实现快速访问。

哈希映射示意图

注意：虽然'哈希'是常用译名，但'散列'更能体现数据分布的样貌。在实际开发中，两者通用。

二、直接定址法

如果关键字的范围比较集中，最直接的方法就是直接定址法。比如关键字都在 [0, 99] 之间，我们可以开一个大小为 100 的数组，关键字的值直接作为下标。

这种方法直观且高效，增删查都是 O(1)。但它有个致命缺陷：只适用于整型且范围集中的情况。对于浮点数、字符串或者范围巨大的整数，直接定址法会浪费大量内存甚至无法实现。

三、哈希冲突

当使用哈希函数将不同的 Key 映射到同一个位置时，就发生了哈希冲突（Collision）。理想情况下我们希望避免冲突，但在实际场景中，冲突是不可避免的。因此，设计优秀的哈希函数以减少冲突频率，以及设计合理的冲突解决策略，是哈希表的核心。

四、负载因子

负载因子（Load Factor）反映了哈希表的填充程度。计算公式为：

[ \text{负载因子} = N / M ]

其中 N 是已存储元素个数，M 是哈希表大小。负载因子越大，冲突概率越高，空间利用率也越高；反之则相反。通常我们需要控制负载因子在一定范围内，以保证性能。

五、将关键词转为整数

哈希函数通常基于整数运算。如果 Key 不是整数（如 string），我们需要先将其转换为整数。例如，可以将字符串每个字符的 ASCII 码参与运算，生成一个唯一的哈希值。后续讨论中，除非特别说明，Key 均指转换后的整数值。

六、哈希函数

一个好的哈希函数应让关键字均匀分布。常见的构造方法有以下几种：

6.1 除法散列法

最常用的是除留余数法：h(key) = key % M。

关键点：M 最好取一个不太接近 2 的整数次幂的质数。如果 M 是 2 的幂，key % M 相当于保留低 x 位，容易导致低位相同的 Key 发生冲突。同理，也应避免 M 为 10 的幂。

6.2 乘法散列法

对 M 没有特殊要求。思路是先计算 key * A 的小数部分，再乘以 M 并向下取整：

[ h(key) = \lfloor M \times ((A \times key) % 1.0) \rfloor ]

其中 A 通常取黄金分割比 0.618...。这种方法对 M 的选择更灵活。

6.3 全域散列法

为了防止恶意构造数据导致严重冲突，可以引入随机性。每次初始化哈希表时，从一组散列函数中随机选择一个。这样攻击者无法预知具体的映射规则。

七、处理哈希冲突

实践中主要有两种解决冲突的策略：开放定址法和链地址法。

7.1 开放定址法

所有元素都存储在哈希表中。当发生冲突时，按某种规则寻找下一个空位。负载因子必须小于 1。

（1）线性探测

从冲突位置开始，依次向后探测，直到找到空位。公式为：hc(key, i) = (hash0 + i) % M。

缺点容易产生'聚集'现象，即连续冲突的位置会吸引更多新数据，导致后续查找变慢。

enum State { EXIST, EMPTY, DELETE }; template<class K, class V> struct HashData { pair<K, V> _kv; State _state = EMPTY; }; template<class K, class V, class Hash = HashFunc<K>> class HashTable { private: vector<HashData<K, V>> _tables; size_t _n = 0; // 表中存储数据个数 public: // 获取下一个大于 n 的质数，保证扩容后仍是质数 inline unsigned long __stl_next_prime(unsigned long n) { static const int __stl_num_primes = 28; static const unsigned long __stl_prime_list[__stl_num_primes] = { 53, 97, 193, 389, 769, 1543, 3079, 6151, 12289, 24593, 49157, 98317, 196613, 393241, 786433, 1572869, 3145739, 6291469, 12582917, 25165843, 50331653, 100663319, 201326611, 402653189, 805306457, 1610612741, 3221225473, 4294967291 }; const unsigned long* first = __stl_prime_list; const unsigned long* last = __stl_prime_list + __stl_num_primes; const unsigned long* pos = lower_bound(first, last, n); return pos == last ? *(last - 1) : *pos; } HashTable() { _tables.resize(__stl_next_prime(0)); } bool Insert(const pair<K, V>& kv) { if (Find(kv.first)) return false; // 防止重复插入 // 负载因子大于 0.7 时扩容 if (_n * 10 / _tables.size() >= 7) { HashTable<K, V, Hash> newHT; newHT._tables.resize(__stl_next_prime(_tables.size() + 1)); for (size_t i = 0; i < _tables.size(); ++i) { if (_tables[i]._state == EXIST) { newHT.Insert(_tables[i]._kv); } } _tables.swap(newHT._tables); } Hash hash; size_t hash0 = hash(kv.first) % _tables.size(); size_t hashi = hash0; size_t i = 1; // 线性探测 while (_tables[hashi]._state == EXIST) { hashi = (hash0 + i) % _tables.size(); ++i; } _tables[hashi]._kv = kv; _tables[hashi]._state = EXIST; ++_n; return true; } HashData<K, V>* Find(const K& key) { Hash hash; size_t hash0 = hash(key) % _tables.size(); size_t hashi = hash0; size_t i = 1; while (_tables[hashi]._state != EMPTY) { if (_tables[hashi]._state == EXIST && _tables[hashi]._kv.first == key) { return &_tables[hashi]; } hashi = (hash0 + i) % _tables.size(); ++i; } return nullptr; } bool Erase(const K& key) { HashData<K, V>* ret = Find(key); if (ret == nullptr) return false; ret->_state = DELETE; --_n; return true; } private: vector<HashData<K, V>> _tables; size_t _n = 0; };

template<class K, class V> struct HashNode { pair<K, V> _kv; HashNode<K, V>* _next; HashNode(const pair<K, V>& kv) : _kv(kv), _next(nullptr) {} }; template<class K, class V, class Hash = HashFunc<K>> class HashTable { typedef HashNode<K, V> Node; public: HashTable() { _tables.resize(__stl_next_prime(0), nullptr); } ~HashTable() { for (size_t i = 0; i < _tables.size(); ++i) { Node* cur = _tables[i]; while (cur) { Node* next = cur->_next; delete cur; cur = next; } _tables[i] = nullptr; } } bool Insert(const pair<K, V>& kv) { Hash hs; size_t hashi = hs(kv.first) % _tables.size(); // 负载因子等于 1 时扩容 if (_n == _tables.size()) { vector<Node*> newtables(__stl_next_prime(_tables.size() + 1), nullptr); for (size_t i = 0; i < _tables.size(); ++i) { Node* cur = _tables[i]; while (cur) { Node* next = cur->_next; size_t newHashi = hs(cur->_kv.first) % newtables.size(); // 头插到新表 cur->_next = newtables[newHashi]; newtables[newHashi] = cur; cur = next; } _tables[i] = nullptr; } _tables.swap(newtables); hashi = hs(kv.first) % _tables.size(); } // 头插法 Node* newnode = new Node(kv); newnode->_next = _tables[hashi]; _tables[hashi] = newnode; ++_n; return true; } Node* Find(const K& key) { Hash hs; size_t hashi = hs(key) % _tables.size(); Node* cur = _tables[hashi]; while (cur) { if (cur->_kv.first == key) return cur; cur = cur->_next; } return nullptr; } bool Erase(const K& key) { Hash hs; size_t hashi = hs(key) % _tables.size(); Node* prev = nullptr; Node* cur = _tables[hashi]; while (cur) { if (cur->_kv.first == key) { if (prev == nullptr) { _tables[hashi] = cur->_next; } else { prev->_next = cur->_next; } delete cur; --_n; return true; } prev = cur; cur = cur->_next; } return false; } private: vector<Node*> _tables; size_t _n = 0; };

STL 哈希表原理与模拟实现