哈希表实现原理与代码详解

1. 哈希概念

哈希(hash)又称散列，是一种组织数据的方式。从译名来看，有散乱排列的意思。本质就是通过哈希函数把关键字 Key 跟存储位置建立一个映射关系，查找时通过这个哈希函数计算出 Key 存储的位置，进行快速查找。

基于建立映射过程的思考，衍生出来许多方法·，这是下文着重讨论的部分，然后数据结构中基于哈希的思想，实现了叫做哈希表（散列表）的数据结构。这里数据结构是数据结构，思想是思想，我们不能直接画等同

2 哈希冲突和哈希函数

假设我们只有数据范围是[0, 9999]的 N 个值，我们要映射到一个 M 个空间的数组中 (一般情况下 M >= N)，那么就要借助好的映射方法，使关键字 key 被放到数组的 h(key) 位置，这里要注意的是h(key) 计算出的值必须在[0, M) 之间，即数据映射到数组上的位置必须在数组范围内。这里存在的一个问题就是，两个不同的 key 可能会映射到同一个位置去，这种问题我们叫做哈希冲突，或者哈希碰撞。

这里我们把数据与存储位置之间映射关系的表达式叫做哈希函数 (hash function)hf，一个好的哈希函数应该让N 个关键字被等概率的均匀的散列分布到哈希表的 M 个空间中，但是实际中由于数据间冲突无法避免，很难做到等概率设计，但是我们要尽量往这个方向去考量设计。

3. 负载因子

假设哈希表中已经映射存储了 N 个值，哈希表的大小为 M，那么负载因子 ，负载因子有些地方也翻译为载荷因子/装载因子等，他的英文为 load factor。负载因子越大，哈希冲突的概率越高，空间利用率越高；负载因子越小，哈希冲突的概率越低，空间利用率越低；

4. 将关键字转为整数

哈希函数中，我们将关键字映射到数组中位置，一般是使用整型做映射计算，如果关键字不是整型，我们要想办法转换成整型，这个细节我们后面代码实现中再进行细节展示。下面哈希函数部分我们讨论时，如果关键字不是整数，那么我们讨论的 Key 是关键字转换成的整数。

5. 哈希函数

在实际的应用中，我们根据具体的哈希函数确定如何映射，求出**关键字 key 存放在数组的 h(key) 位置。**反过来说 h(key) 位置存放的就是 key 关键字，之后查找对应的 key 数据，我们直接数组下标 h(key) 就可以找到数据了，因此为了后续根据 h(key) 再找到数据，插入、查找一系列过程应该使用同一个哈希函数，不能更改，否则算出 h(key) 前后不一致。

5.1 直接定址法

当关键字的范围比较集中时，直接定址法就是非常简单高效的方法，比如一组关键字都在[0,99]之间，那么我们开一个 100 个数的数组，每个关键字的值直接就是存储位置的下标。

比如一组关键字值都在[a,z]的小写字母，那么我们开一个 26 个数的数组，每个关键字 acsii 码-a ascii 码就是存储位置的下标（这里是通过以 a 为基准，每个字母映射到数组下标的位置，就是相对 a 的位置）。

也就是说直接定址法本质就是用关键字计算出一个绝对位置或者相对位置。这个方法我们在计数排序部分已经用过了，其次在 string 章节的下面 OJ 也用过了。

387. 字符串中的第一个唯一字符 - 力扣（LeetCode）

文章配图

namespace open_address { enum State { EXIST, EMPTY, DELETE }; template<class K, class V> struct HashData { pair<K, V> _kv; State _state = EMPTY; }; template<class K, class V, class Hash = HashFunc<K>> class HashTable { public: inline unsigned long __stl_next_prime(unsigned long n) { // Note: assumes long is at least 32 bits. static const int __stl_num_primes = 28; static const unsigned long __stl_prime_list[__stl_num_primes] = { 53, 97, 193, 389, 769, 1543, 3079, 6151, 12289, 24593, 49157, 98317, 196613, 393241, 786433, 1572869, 3145739, 6291469, 12582917, 25165843, 50331653, 100663319, 201326611, 402653189, 805306457, 1610612741, 3221225473, 4294967291 }; const unsigned long* first = __stl_prime_list; const unsigned long* last = __stl_prime_list + __stl_num_primes; const unsigned long* pos = lower_bound(first, last, n); return pos == last ? *(last - 1) : *pos; } HashTable() { _tables.resize(__stl_next_prime(0)); } bool Insert(const pair<K, V>& kv) { if (Find(kv.first)) return false; // 负载因子大于 0.7 就扩容 if (_n * 10 / _tables.size() >= 7) { // 这里利用类似深拷贝现代写法的思想插入后交换解决 HashTable<K, V, Hash> newHT; newHT._tables.resize(__stl_next_prime(_tables.size() + 1)); for (size_t i = 0; i < _tables.size(); i++) { if (_tables[i]._state == EXIST) { newHT.Insert(_tables[i]._kv); } } _tables.swap(newHT._tables); } Hash hash; size_t hash0 = hash(kv.first) % _tables.size(); size_t hashi = hash0; size_t i = 1; while (_tables[hashi]._state == EXIST) { // 线性探测 hashi = (hash0 + i) % _tables.size(); // 二次探测就变成 +- i^2 ++i; } _tables[hashi]._kv = kv; _tables[hashi]._state = EXIST; ++_n; return true; } HashData<K, V>* Find(const K& key) { Hash hash; size_t hash0 = hash(key) % _tables.size(); size_t hashi = hash0; size_t i = 1; while (_tables[hashi]._state != EMPTY) { if (_tables[hashi]._state == EXIST && _tables[hashi]._kv.first == key) { return &_tables[hashi]; } // 线性探测 hashi = (hash0 + i) % _tables.size(); ++i; } return nullptr; } bool Erase(const K& key) { HashData<K, V>* ret = Find(key); if (ret == nullptr) { return false; } else { ret->_state = DELETE; --_n; return true; } } private: vector<HashData<K, V>> _tables; size_t _n = 0; // 表中存储数据个数 }; }

namespace hash_bucket { template<class K, class V> struct HashNode { pair<K, V> _kv; HashNode<K, V>* _next; HashNode(const pair<K, V>& kv) :_kv(kv) , _next(nullptr) { } }; //sgi 版本的哈希表使用的方法，给了一个近似 2 倍的质数表，每次去质数表获取扩容后的大小 template<class K, class V, class Hash = HashFunc<K>> class HashTable { typedef HashNode<K, V> Node; inline unsigned long __stl_next_prime(unsigned long n) { static const int __stl_num_primes = 28; static const unsigned long __stl_prime_list[__stl_num_primes] = { 53, 97, 193, 389, 769, 1543, 3079, 6151, 12289, 24593, 49157, 98317, 196613, 393241, 786433, 1572869, 3145739, 6291469, 12582917, 25165843, 50331653, 100663319, 201326611, 402653189, 805306457, 1610612741, 3221225473, 4294967291 }; const unsigned long* first = __stl_prime_list; const unsigned long* last = __stl_prime_list + __stl_num_primes; const unsigned long* pos = lower_bound(first, last, n); return pos == last ? *(last - 1) : *pos; } public: HashTable() { _tables.resize(__stl_next_prime(0), nullptr); } // 拷贝构造和赋值拷贝需要实现深拷贝，有兴趣的读者可以自行实现 ~HashTable() { // 依次把每个桶释放 for (size_t i = 0; i < _tables.size(); i++) { Node* cur = _tables[i]; while (cur) { Node* next = cur->_next; delete cur; cur = next; } _tables[i] = nullptr; } } bool Insert(const pair<K, V>& kv) { Hash hs; size_t hashi = hs(kv.first) % _tables.size(); // 负载因子==1 扩容 if (_n == _tables.size()) { /*HashTable<K, V> newHT; newHT._tables.resize(__stl_next_prime(_tables.size()+1); for (size_t i = 0; i < _tables.size(); i++) { Node* cur = _tables[i]; while(cur) { newHT.Insert(cur->_kv); cur = cur->_next; } } _tables.swap(newHT._tables);*/ // 这里如果使用上面的方法，扩容时创建新的结点，后面还要使用旧结点，浪费了 // 下面的方法，直接移动旧表的结点到新表，效率更好 vector<Node*> newtables(__stl_next_prime(_tables.size() + 1), nullptr); for (size_t i = 0; i < _tables.size(); i++) { Node* cur = _tables[i]; while (cur) { Node* next = cur->_next; // 旧表中节点，挪动新表重新映射的位置 size_t hashi = hs(cur->_kv.first) % newtables.size(); // 头插到新表 cur->_next = newtables[hashi]; newtables[hashi] = cur; cur = next; } _tables[i] = nullptr; } _tables.swap(newtables); } // 头插 (尾插的话链表不方便找到尾节点，所以采用头插的方式) Node* newnode = new Node(kv); newnode->_next = _tables[hashi]; _tables[hashi] = newnode; ++_n; return true; } Node* Find(const K& key) { Hash hs; size_t hashi = hs(key) % _tables.size(); Node* cur = _tables[hashi]; while (cur) { if (cur->_kv.first == key) { return cur; } cur = cur->_next; } return nullptr; } bool Erase(const K& key) { Hash hs; size_t hashi = hs(key) % _tables.size(); Node* prev = nullptr; Node* cur = _tables[hashi]; while (cur) { if (cur->_kv.first == key) { if (prev == nullptr) { _tables[hashi] = cur->_next; } else { prev->_next = cur->_next; } delete cur; --_n; return true; } prev = cur; cur = cur->_next; } return false; } private: vector<Node*> _tables; // 指针数组 size_t _n = 0; // 表中存储数据个数 }; }

哈希表实现原理与代码详解

1. 哈希概念

2 哈希冲突和哈希函数

3. 负载因子

4. 将关键字转为整数

5. 哈希函数

5.1 直接定址法

更多推荐文章

相关免费在线工具

5.2 除法散列法/除留余数法

5.3 乘法散列法（了解）

5.4 全域散列法（了解）

5.5 其他方法（了解）

6. 处理哈希冲突

6.1 开放定址法

线性探测

a.线性探测的问题

开放定址法代码实现

开放定址法的哈希表结构和查找设计

key 不能取模的问题

开放定址法的插入和删除

扩容

二次探测

双重散列（了解）

完整代码实现

6.2 链地址法

6.2.1 链地址法的探讨

解决冲突的思路

扩容

6.2.2 链地址法代码实现

极端场景

更多推荐文章

相关免费在线工具

哈希表实现原理与代码详解

1. 哈希概念

2 哈希冲突和哈希函数

3. 负载因子

4. 将关键字转为整数

5. 哈希函数

5.1 直接定址法

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5.2 除法散列法/除留余数法

5.3 乘法散列法（了解）

5.4 全域散列法（了解）

5.5 其他方法（了解）

6. 处理哈希冲突

6.1 开放定址法

线性探测

a.线性探测的问题

开放定址法代码实现

开放定址法的哈希表结构和查找设计

key 不能取模的问题

开放定址法的插入和删除

扩容

二次探测

双重散列（了解）

完整代码实现

6.2 链地址法

6.2.1 链地址法的探讨

解决冲突的思路

扩容

6.2.2 链地址法代码实现

极端场景

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具