哈希表实现详解：开放定址法与链地址法

哈希表核心概念

哈希表（散列表）是一种'key-value'存储结构，核心是哈希函数和冲突解决策略。通过哈希函数建立 key 与存储位置的映射，实现增删查改平均 O(1) 的时间复杂度，广泛应用于 unordered_map、缓存、字典等场景。

一. 哈希表核心概念

1.1 哈希表的本质

哈希函数：将 key 映射到哈希表的存储位置（下标），公式为 h(key) = 存储位置；
核心目标：让 key 均匀分布，减少冲突，保证 O(1) 平均效率。

1.2 哈希冲突

两个不同的 key 通过哈希函数计算出相同的存储位置，称为哈希冲突。冲突无法避免，只能通过优化哈希函数和冲突解决策略减少影响。

1.3 负载因子

衡量哈希表拥挤程度的指标，公式为：负载因子 (λ) = 存储的元素个数 (N) / 哈希表大小 (M)。

λ 越大：冲突概率越高，空间利用率越高；
λ 越小：冲突概率越低，空间利用率越低；
实践中：开放定址法 λ 通常控制在 0.7 以内，链地址法 λ 控制在 1 以内。

1.4 将关键字转为整数

我们将关键字映射到数组中位置，一般是整数好做映射计算。如果不是整数，我们要想办法转换成整数，这个细节我们后面代码实现中再进行细节展示。下面哈希函数部分我们讨论时，如果关键字不是整数，那么讨论的 Key 是关键字转换成的整数。

二. 哈希函数设计

好的哈希函数能让 key 均匀分布，减少冲突，常用设计方法如下：

2.1 直接定址法

直接用 key 或 key 的线性变换作为存储位置，公式：h(key) = a*key + b。

适用场景：key 范围集中（如 0-99、a-z）；
优点：无冲突，效率高；
缺点：key 范围分散时浪费内存（如 key 为 1、10000，需开 10001 大小的数组）。

在关键字的范围比较集中时，直接定值法就是非常高效的方法。比如一组关键字都在 [0, 99] 之间，那么我们开一个 100 个数的数组，每个关键字的值直接就算存储位置的下标。再比如一组关键字值都在 [a, z] 的小写字母，那么我们开一个 26 个数的数组，每个关键字 ascii 码和 -'a' 的 ascii 码就是存储位置的下标。

实战举例：字符串中的第一个唯一字符

class Solution {
public:
    int firstUniqChar(string s) {
        int count[26] = {0};
        for (auto ch : s) {
            count[ch - ]++;
        }
         ( i = ; i < s.(); i++) {
             (count[s[i] - ] == ) {
                 i;
            }
        }
         ;
    }
};

#pragma once #include <iostream> #include <vector> #include <algorithm> using namespace std; // 状态标识 enum State { EMPTY, // 空位置 EXIST, // 已存储元素 DELETE // 已删除元素 }; // 质数表 (SGI STL 同款，用于扩容) static const int __stl_num_primes = 28; static const unsigned long __stl_prime_list[__stl_num_primes] = { 53, 97, 193, 389, 769, 1543, 3079, 6151, 12289, 24593, 49157, 98317, 196613, 393241, 786433, 1572869, 3145739, 6291469, 12582917, 25165843, 50331653, 100663319, 201326611, 402653189, 805306457, 1610612741, 3221225473, 4294967291 }; inline unsigned long __stl_next_prime(unsigned long n) { const unsigned long* first = __stl_prime_list; const unsigned long* last = __stl_prime_list + __stl_num_primes; const unsigned long* pos = lower_bound(first, last, n); return pos == last ? *(last - 1) : *pos; } // 哈希表结点结构 template<class K, class V> struct HashData { pair<K, V> _kv; // 存储 key-value 对 State _state = EMPTY; // 初始状态为空 }; // 哈希函数仿函数 template<class K> struct HashFunc { size_t operator()(const K& key) { return (size_t)key; // 默认直接转换 } }; // 特化 string 类型的哈希函数 template<> struct HashFunc<string> { // BKDR 字符串哈希算法 size_t operator()(const string& key) { size_t hash = 0; for (auto ch : key) { hash += ch; // 累加字符 ASCII 码 hash *= 131; // 乘质数 131，减少冲突 } return hash; } }; // 开放定址法哈希表 (线性探测) template<class K, class V, class Hash = HashFunc<K>> class HashTable { public: // 构造函数 (初始化哈希表大小为第一个质数) HashTable() : _tables(__stl_next_prime(1)) {} // 插入 key-value 对 (去重) bool Insert(const pair<K, V>& kv) { // 1. 先查找，避免重复插入 if (Find(kv.first)) return false; // 2. 负载因子 >= 0.7，扩容 if ((double)_n / (double)_tables.size() >= 0.7) { HashTable<K, V, Hash> newht; newht._tables.resize(__stl_next_prime(_tables.size() + 1)); // 3. 迁移旧表元素到新表 for (size_t i = 0; i < _tables.size(); i++) { // 遍历旧表，旧表数据插入到 newht if (_tables[i]._state == EXIST) { newht.Insert(_tables[i]._kv); } } // 4. 交换新旧表 _tables.swap(newht._tables); } // 5. 线性探测找空闲位置 Hash hs; size_t hash0 = hs(kv.first) % _tables.size(); // 线性探测 size_t i = 1; size_t hashi = hash0; while (_tables[hashi]._state == EXIST) { // 冲突，线性探测下一个位置 hashi = (hash0 + i) % _tables.size(); ++i; } // 6. 插入元素 _tables[hashi]._kv = kv; _tables[hashi]._state = EXIST; ++_n; return true; } // 查找 key，返回节点指针 (nullptr 表示未找到) HashData<K, V>* Find(const K& key) { Hash hs; size_t hash0 = hs(key) % _tables.size(); // 线性探测 size_t i = 1; size_t hashi = hash0; // 遇到 EMPTY 才停止查找 (DELETE 继续探测) while (_tables[hashi]._state != EMPTY) { if (_tables[hashi]._state != DELETE && _tables[hashi]._kv.first == key) { return &_tables[hashi]; } // 线性探测下一个位置 hashi = (hash0 + i) % _tables.size(); ++i; } return nullptr; } // 删除 key(仅修改状态为 DELETE,不实际删除元素) bool Erase(const K& key) { HashData<K, V>* ret = Find(key); if (ret) { // 标记为 DELETE,避免影响后续查找 ret->_state = DELETE; --_n; return true; } else { return false; } } private: std::vector<HashData<K, V>> _tables; // 哈希表数组 size_t _n = 0; // 已存储的数据个数 };

namespace hash_bucket { template<class K, class V> struct HashNode { pair<K, V> _kv; // 哈希桶节点结构（链表节点） HashNode<K, V>* _next; HashNode(const pair<K, V>& kv) : _kv(kv), _next(nullptr) {} }; template<class K, class V, class Hash = HashFunc<K>> class HashTable { typedef HashNode<K, V> Node; public: HashTable() : _tables(__stl_next_prime(1), nullptr), _n(0) {} ~HashTable() { for (size_t i = 0; i < _tables.size(); i++) { Node* cur = _tables[i]; while (cur) { Node* next = cur->_next; delete cur; cur = next; } _tables[i] = nullptr; } _n = 0; } // 插入 key-value 对（头插法，支持重复插入，去重需先查找） bool Insert(const pair<K, V>& kv) { if (Find(kv.first)) return false; Hash hs; // 1. 负载因子≥1，扩容（链地址法负载因子可大于 1） if (_n == _tables.size()) { std::vector<Node*> newtables(__stl_next_prime(_tables.size() + 1), nullptr); // 2. 迁移旧表节点到新表（直接移动节点，不新建，效率更高） for (size_t i = 0; i < _tables.size(); i++) { // 遍历旧表，旧表节点重新映射，挪动到新表 Node* cur = _tables[i]; while (cur) { Node* next = cur->_next; // 3. 重新计算节点在新表的位置 size_t hashi = hs(cur->_kv.first) % newtables.size(); // 4. 头插入新表 cur->_next = newtables[hashi]; newtables[hashi] = cur; cur = next; } _tables[i] = nullptr; } _tables.swap(newtables); } size_t hashi = hs(kv.first) % _tables.size(); // 5. 头插入当前节点 Node* newnode = new Node(kv); newnode->_next = _tables[hashi]; _tables[hashi] = newnode; ++_n; return true; } // 查找 key，返回节点指针（nullptr 表示未找到） Node* Find(const K& key) { Hash hs; size_t hashi = hs(key) % _tables.size(); Node* cur = _tables[hashi]; while (cur) { if (cur->_kv.first == key) { return cur; } cur = cur->_next; } return nullptr; } // 删除 key（链表节点删除） bool Erase(const K& key) { Hash hs; size_t hashi = hs(key) % _tables.size(); Node* prev = nullptr; Node* cur = _tables[hashi]; while (cur) { if (cur->_kv.first == key) { // 删除 if (prev == nullptr) { // 桶中第一个节点 _tables[hashi] = cur->_next; } else { prev->_next = cur->_next; } --_n; delete cur; return true; } prev = cur; cur = cur->_next; } return false; } private: std::vector<Node*> _tables; // 指针数组（存储链表头指针） size_t _n; }; }

对比维度	开放定址法（线性探测）	链地址法（哈希桶）
空间利用率	较低（需预留空闲位置，装载因子λ通常≤0.7）	较高（冲突元素链成链表，装载因子λ可以≥1）
冲突处理	线性探测，易产生'一次群集'现象	链表存储，冲突元素被归入同一桶中，无群集问题
实现复杂度	较高（需处理状态标识、扩容迁移逻辑复杂）	较低（主要是链表操作，逻辑相对简单）
查找效率	平均 O(1)，最坏 O(N)（群集严重时退化）	平均 O(1)，最坏 O(k)（k 为单个桶的链表长度）
适用场景	空间充足、数据量固定或可预测的场景	高频插入删除、数据量动态变化的场景（如 C++ `unordered_map`)
缓存性能	更好（数据连续存储，locality 高）	较差（链表节点在内存中不连续，访问可能跳跃）
扩容操作	成本高（所有元素需要重新哈希并迁移到新表）	成本相对较低（只需重新哈希，节点可重新挂载）

哈希表实现详解：开放定址法与链地址法

哈希表核心概念

一. 哈希表核心概念

1.1 哈希表的本质

1.2 哈希冲突

1.3 负载因子

1.4 将关键字转为整数

二. 哈希函数设计

2.1 直接定址法

更多推荐文章

相关免费在线工具

2.2 除法散列法（除留余数法）

2.3 其他方法（了解）

2.4 字符串哈希实现（特化仿函数）

三. 哈希冲突解决策略

3.1 实现一：开放定址法（线性探测，二次探测）

3.1.1 线性探测核心设计

3.1.2 完整代码实现

3.1.3 二次探测

3.1.4 双重探测（了解）

3.2 实现二：链地址法（哈希桶）

3.3 两种实现对比

结尾

更多推荐文章

相关免费在线工具

哈希表实现详解：开放定址法与链地址法

哈希表核心概念

一. 哈希表核心概念

1.1 哈希表的本质

1.2 哈希冲突

1.3 负载因子

1.4 将关键字转为整数

二. 哈希函数设计

2.1 直接定址法

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 除法散列法（除留余数法）

2.3 其他方法（了解）

2.4 字符串哈希实现（特化仿函数）

三. 哈希冲突解决策略

3.1 实现一：开放定址法（线性探测，二次探测）

3.1.1 线性探测核心设计

3.1.2 完整代码实现

3.1.3 二次探测

3.1.4 双重探测（了解）

3.2 实现二：链地址法（哈希桶）

3.3 两种实现对比

结尾

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具