跳到主要内容
C++ 哈希表核心机制:从哈希冲突到负载因子 | 极客日志
C++ 算法
C++ 哈希表核心机制:从哈希冲突到负载因子 综述由AI生成 哈希表通过哈希函数建立关键字与存储位置的映射关系。文章讲解了直接定址法、除法散列法等哈希函数设计原理,分析了哈希冲突产生的原因及负载因子的影响。重点阐述了开放定址法(线性探测、二次探测)和链地址法的冲突解决策略,并提供了基于 C++ 的哈希表结构设计与扩容代码示例,涵盖插入、查找、删除操作及仿函数自定义。
信号故障 发布于 2026/3/22 更新于 2026/6/4 18 浏览C++ 哈希表核心机制:从哈希冲突到负载因子
C++ 的两个参考文档
非官方文档: cplusplus
准官方文档(同步更新): C++ 官方参考文档
set 和 multiset 的参考文档: set 、 multiset
map 和 multimap 的参考文档: map 、 multimap
unordered_set 和 unordered_multiset 的参考文档: unordered_set 、 unordered_multiset
前情提示
1 ~> 初始哈希
哈希 (hash) 又称散列 ,故哈希表又称散列表,是一种组织数据的方式。哈希是音译名,从译名来看,有散乱排列(散列)的意思。哈希的本质就是通过哈希函数把关键字 Key 跟存储位置建立一个映射关系,查找时通过这个哈希函数计算出 Key 存储的位置,进行快速查找。
2 ~> 直接定址法
2.1 概念
当关键字的范围比较集中时,直接定址法是非常简单高效的方法 :比如一组关键字都在 [0,99] 之间,那么我们开一个 100 个数的数组,每个关键字的值直接就是存储位置的下标。再比如一组关键字值都在 [a,z] 的小写字母,那么我们开一个 26 个数的数组,每个关键字 ascii 码 -'a'ascii 码就是存储位置的下标。也就是说直接定址法本质就是用关键字计算出一个绝对位置或者相对位置。这个方法我们不仅在计数排序部分用过,在 string 部分的 OJ 题目那里也用过了。
2.2 示例:字符串中的第一个唯一字符 class Solution { public : int firstUniqChar (string s) {
3 ~> 哈希的一些概念
3.1 哈希冲突 直接定址法的缺点也非常明显,当关键字的范围比较分散时,就很浪费内存甚至内存不够用。假设我们只有数据范围是 [0,9999] 的 N 个值,我们要映射到一个 M 个空间的数组中(一般情况下 M >= N),那么就要借助哈希函数 (hash function) hf,关键字 key 被放到数组的 h(key) 位置,这里要注意的是 h(key) 计算出的值必须在 [O , M) 之间。
这里存在的一个问题就是,两个不同的 key 可能会映射到同一个位置去,这种问题我们叫做哈希冲突,或者哈希碰撞。理想情况是找出一个好的哈希函数避免冲突,但是实际场景中,冲突是不可避免的,所以我们尽可能设计出优秀的哈希函数,减少冲突的次数,同时也要去设计出解决冲突的方案。
3.2 负载因子 假设哈希表中已经映射存储了 N 个值,哈希表的大小为 M,那么负载因子 = N / M,负载因子有些地方也翻译为载荷因子/装载因子等,他的英文为 loadfactor。负载因子越大,哈希冲突的概率越高,空间利用率越高;负载因子越小,哈希冲突的概率越低,空间利用率越低。
3.3 将关键字转为整数 我们将关键字映射到数组中位置,一般是整数好做映射计算,如果不是整数,我们要想办法转换成整数,这个细节我们后面代码实现中再进行细节展示。下面哈希函数部分我们讨论时,如果关键字不是整数,那么我们讨论的 Key 是关键字转换成的整数。
4 ~> 哈希函数
4.1 除法散列法 / 除留余数法
1、除法散列法也叫做除留余数法,顾名思义,假设哈希表的大小为 M,那么通过 key 除以 M 的余数作为映射位置的下标,也就是哈希函数为:h(key) = key % M 。
2、当使用除法散列法时,要尽量避免 M 为某些值,如 2 的幂,10 的幂等。如果是 2^X,key % 2^X 本质相当于保留 key 的后 X 位(后 X 位相同的值),计算出的哈希值都是一样的——就冲突了 。比如:[63,31} 看起来没有关联的值,如果 M 是 16,也就是 2^4,那么计算出的哈希值都是 15,因为 63 的二进制后 8 位是 00111111,31 的二进制后 8 位是 00011111。如果是 10^x,就更明显了,保留的都是 10 进值的后 X 位,如:[112,12312},如果 M 是 100(10^2),计算出的哈希值都是 12。
3、当使用除法散列法时,建议 M 取不太接近 2 的整数次幂的一个质数(素数),什么是质数?可以参考下面的概念——
下面的内容仅做了解,大家可以选择跳过哦!前面第三点建议 M 取一个不太接近 2 的整数次幂的质数,Java 中,HashMap 采用除法散列法时就是 2 的整数次幂做哈希表的 M,这样一来我们可以直接位运算,相对取模会更加高效些。只是 Java 不是单纯地取模,比如说 M 是 2^16,本质上是取后 16 位,那么用 key' = key >> 16,然后把 key 和 key' 异或的结果作为哈希值,也就是说:我们可以映射的值在 [0 , M] 范围内,尽可能让 key 所有的位都参与计算,这样映射出的哈希值更加均匀一些,因此,建议"M 取不大接近 2 的整数次幂的一个质数",大多数数据结构书籍中写的基本是这个理论,我们实践中还是建议灵活运用。
4.2 乘法散列法(了解即可) 乘法散列法对哈希表大小 M 没有要求,这里介绍一下大思路,第一步:用关键字 K 乘上常数 A(0 < A < 1),并抽取出 k*A 的小数部分 ;第二步:后再用 M 乘以 k * A 的小数部分,再向下取整 。
h(key) = floor(M * ((A * key) % 1.0)),其中 floor 表示对表达式进行下取整,A
(0 , 1),%1.0 是为了取小数,这里最重要的是 A 的值应该如何设定,Knuth——这又是一位大佬——他认为 A = (5 - 1) / 2 = 0.6180339887...(黄金分割点) 比较好。
乘法散列法对哈希表大小 M 是没有要求的,假设 M 为 1024,key 为 1234,A = 0.6180339887,A * key = 762.6539420558,取小数部分为 0.6539420558,M * ((A * key) % 1.0) = 0.6539420558*1024 = 669.6366651392,那么 h(1234) = 669。
4.3 全域散列法(了解即可) 如果存在这样一个恶意的对手,他针对我们提供的散列函数,特意构造出一个发生严重冲突的数据集,比如,让所有关键字全部落入同一个位置中——这种情况是可以存在的,只要散列函数是公开且确定的,就可以实现此攻击。解决方法自然是见招拆招,给散列函数增加随机性,攻击者就无法找出确定可以导致最坏情况的数据。这种方法叫做全域散列。
hab(key) = ((a * key + 6) % P) % M,P 需要选一个足够大的质数,a 可以随机选 [1 , P - 1] 之间的任意整数,b 可以随机选 [0 , P - 1] 之间的任意整数,这些函数构成了一个 P * (P - 1) 组全域散列函数组。假设 P = 17,M = 6,a = 3,b = 4,则 h34(8) = ((3 * 8 + 4) % 17) % 6 = 5。
需要注意的是每次初始化哈希表时,随机选取全域散列函数组中的一个散列函数使用,后续增删改查都固定使用这个散列函数,否则每次哈希都是随机选一个散列函数,那么插入是一个散列函数,查找又是另一个散列函数,就会导致找不到插入的 key 了。
4.4 其他方法(了解即可) 上面的几种方法是在《算法导论》这本书籍中讲解的方法。
《殷人昆数据结构:用面向对象方法与 C++ 语言描述 (第二版)》和《[数据结构 (C 语言版).严蔚敏,吴伟民》等教材型书籍上面还给出了平方取中法、折叠法、随机数法、数学分析法 等,这些方法相对更适用于一些局限的特定场景,大家如果有兴趣可以去看看这些书籍。
5 ~> 处理哈希冲突 实践中哈希表一般还是选择除法散列法作为哈希函数,当然哈希表无论选择什么哈希函数也避免不了冲突,因为冲突是避免不了的,我们只能减少冲突,那么插入数据时,如何解决冲突呢?主要有两种方法,开放定址法和链地址法 。
5.1 开放定址法 在开放定址法中所有的元素都放到哈希表里,当一个关键字 key 用哈希函数计算出的位置冲突了,则按照某种规则找到一个没有存储数据的位置进行存储,开放定址法中负载因子一定是小于的。这里的规则有三种:线性探测、二次探测、双重探测 。
5.1.1 线性探测(含堆积问题)
5.1.2 二次探测
5.1.3 双重探测
5.2 详解开放定址法代码 开放定址法在实践中是不如下面会介绍的链地址法的 ,因为开放定址法解决冲突不管使用哪种方法,占用的都是哈希表中的空间,始终存在互相影响的问题——正因如此,开放定址法我们简单选择线性探测实现即可。
5.2.1 哈希表结构 enum State { EXIST, EMPTY, DELETE }; template <class K , class V > struct HashData { pair<K, V> _kv; State _state = EMPTY; }; template <class K , class V > class HashTable { private : vector<HashData<K, V>> _tables; size_t _n = 0 ;
要注意的是这里需要给每个存储值的位置加一个状态标识,否则删除一些值以后,会影响后面冲突的值的查找。如下图所示,我们删除 30,会导致查找 20 失败,当我们给每个位置加一个状态标识 {EXIST,EMPTY,DELETE},删除 30 就可以不用删除值,而是把状态改为 DELETE,那么查找 20 时是遇到 EMPTY 才能,就可以找到 20。
h(19) = 8,h(30) = 8,h(5) = 5,h(36) = 3,h(13) = 2,h(20) = 9,h(21) = 10,h(12) = 1。
5.2.2 扩容问题 这里我们哈希表负载因子控制在 0.7,当负载因子到 0.7 以后我们就需要扩容了,我们还是按照 2 倍的方式扩容,但是同时我们要保持哈希表大小是一个质数,第一个是质数,2 倍后就不是质数了。如何解决?一种方案就是上面在【除法散列法】中我们介绍过的 JavaHashMap 的使用 2 的整数次幂,但是计算时不能直接取模的改进方法;另外一种方案是 SGI 版本的哈希表使用的方法,给了一个近似 2 倍的质数表,每次去质数表获取扩容后的大小。
5.2.3 key 不能取模的问题 当 key 是 string / Date 等类型时,key 不能取模,我们需要给 HashTable 增加一个仿函数 ,这个仿函数支持把 key 转换成一个可以取模的整型 ,如果 key 可以转换为整型并且不容易冲突,那么这个仿函数就用默认参数即可,如果这个 Key 不能转换为整型,我们就需要自己实现一个仿函数传给这个参数,实现这个仿函数的要求就是尽量 key 的每值都参与到计算中,让不同的 key 转换出的整型值不同。string 做哈希表的 key 非常常见,所以我们可以考虑把 string 特化一下——
template <class K > struct HashFunc { size_t operator () (const K& key) { return (size_t )key; } };
5.3 链地址法
5.3.1 对比开放定址法和链地址法
5.3.2 哈希桶概念及其示例
开放定址法中所有的元素都放到哈希表里,链地址法中所有的数据不再直接存储在哈希表中,哈希表中存储一个指针,没有数据映射这个位置时,这个指针为空,有多个数据映射到这个位置时,把这些冲突的数据链接成一个链表,挂在哈希表这个位置下面,像是一个个挂在晾衣杆的水桶,链地址法也叫做拉链法或者哈希桶。
以 {19,30,5,36,13,20,21,12,24,96} 这一组值为例,映射到 M = 11 的表中——
h(19) = 8,h(30) = 8,h(5) = 5,h(36) = 3,h(13) = 2,h(20) = 9,h(21) = 10,
h(12) = 1,h(24) = 2,h(96) = 88
5.3.3 扩容 开放定址法负载因子必须小于 1,链地址法的负载因子就没有限制了,可以大于 1。负载因子越大,哈希冲突的概率越高,空间利用率越高;负载因子越小,哈希冲突的概率越低,空间利用率越低。stl 中 unordered_xxx 的最大负载因子基本控制在 1(负载因子平均是 1,但是这是理想的情况,当然没有那么平均,有的哈希桶不挂,有的挂 2~3 个),大于 1 就扩容,之后在代码实现中也使用这个方式进行扩容。
5.3.4 极端场景 如果在极端场景下,某个桶特别长怎么办?我们其实可以考虑使用全域散列法,这样就不容易被针对了。假设不是被针对了,此时虽然用了全域散列法,但是在偶然情况下,某个桶很长,查找效率很低怎么办呢?这里在 Java8 的 HashMap 中,当桶的长度超过一定阀值(8)时就把链表转换成红黑树,我们知道红黑树是近似平衡,时间复杂度很稳定,O(logN),而哈希在插入的时候会'抽风',而且随着插入次数增加,'抽风'程度会愈演愈烈——
不过,一般情况下,不断扩容,单个桶很长的场景还是比较少的,这个解决极端场景的思路,这里可以了解一下。
5.4 哈希桶代码实现
5.4.0 在私有定义成员变量
5.4.1 插入
5.4.2 查找
5.4.3 删除
完整代码示例与实践演示
HashTable.h: #pragma once #include <vector> static const int __stl_num_primes = 28; static const unsigned long __stl_prime_list[__stl_num_primes] = { 53, 97, 193, 389, 769, 1543, 3079, 6151, 12289, 24593, 49157, 98317, 196613, 393241, 786433, 1572869, 3145739, 6291469, 12582917, 25165843, 50331653, 100663319, 201326611, 402653189, 805306457, 1610612741, 3221225473, 4294967291 }; inline unsigned long __stl_next_prime(unsigned long n) { const unsigned long* first = __stl_prime_list; const unsigned long* last = __stl_prime_list + __stl_num_primes;
Test.cpp: #define _CRT_SECURE_NO_WARNINGS 1 #include <iostream> #include <unordered_map> using namespace std; #include "HashTable.h" namespace open_address { void TestHT1() { int a[] = { 19,30,5,36,13,20,21,12,58 }; HashTable<int, int> ht; for (auto e : a) { ht.Insert({ e,e }); } ht.Insert({ 2,2 }); ht.Insert({ 22,22 }); cout << ht.Find(5) << endl; cout << ht.Find(58) << endl; ht.Erase(5); cout << ht.Find(5) << endl; cout << ht.Find(58) << endl; //for (size_t i = 0; i < 100; i++) //{ // ht.Insert({ rand(),i }); //} } struct HashFuncString { // BKDR size_t operator()(const string& key) { size_t hash = 0; for (auto ch : key) { hash += ch; hash *= 131; } return hash; } }; void TestHT2() { //HashTable<string, string, HashFuncString> dict; HashTable<string, string> dict; dict.Insert({ "string" ,"字符串" });
运行结果
open_address::TestHT1():
open_address::TestHT2():
Hash_bucket::TestHT1():
Hash_bucket::TestHT2():
总结 相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
Gemini 图片去水印 基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
Markdown转HTML 将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online
HTML转Markdown 将 HTML 片段转为 GitHub Flavored Markdown,支持标题、列表、链接、代码块与表格等;浏览器内处理,可链接预填。 在线工具,HTML转Markdown在线工具,online