哈希表原理与哈希桶实现详解

前言

在数据结构中，哈希表是兼顾时间与空间效率的经典方案，它以近乎 O(1) 的读写性能，成为缓存、数据库等场景的核心支撑。本文将从底层原理到实战应用，拆解哈希表的设计逻辑与工程价值。

一、哈希概念

哈希 (hash) 又称散列，是一种组织数据的方式。从译名来看，有散乱排列的意思。本质就是通过哈希函数把关键字 Key 跟存储位置建立一个映射关系，查找时通过这个哈希函数计算出 Key 存储的位置，进行快速查找。

二、直接定址法

当关键字的范围比较集中时，直接定址法就是非常简单高效的方法，比如一组关键字都在 [0,99] 之间，那么我们开一个 100 个数的数组，每个关键字的值直接就是存储位置的下标。再比如一组关键字都在 [a,z] 的小写字母，那么我们开一个 26 个数的数组，每个关键字 ascii 码就是存储位置的下标，也就是说直接定址法本质就是用关键字计算出一个绝对位置或者相对位置。这个方法在我们计数排序部分已经用过了，其次在 string 章节的下面 OJ 也用过了。

字符串中的第一个唯一字符（leetcode）

class Solution {
public:
    int firstUniqChar(string s) {
        int array[26] = {0};
        for(auto& ch : s){ 
            array[ch-'a']++;
        }
        for(size_t i = 0; i<s.size();i++){
            if(array[s[i]-'a']){
                return i;
            }
        }
        return -1;
    }
};

哈希冲突示意图

三、必会概念

3.1 哈希冲突

直接定址法的缺点非常明显，当关键字比较分散时，就很浪费内存空间。假设我们只有数据范围时 [0,9999] 的 N 个值，用直接定址法就很浪费空间。那么我们就要借助哈希函数 (hash function) hf，关键字 key 被放到数据的 h(key) 位置，这里要注意的是 h(key) 计算出的值必须在 [0,M)（左闭右开）之间。

这里存在的一个问题就是，两个不同的 key 可能会映射到同一个位置去，这种问题我们叫做哈希冲突或哈希碰撞。理想情况是找出一个好的哈希函数避免冲突，但是实际场景中，冲突是不可避免的，所以我们尽可能设计出优秀的哈希函数，减少冲突的次数，同时也要去设计出解决冲突的方案。

enum Status{ EXIST, EMPTY, DELETE }; template<classK> struct HashDate{ K _key; Status _status = EMPTY;//状态 }; template<classK> struct HashFunc{ size_t operator()(K key){return(size_t)key;} }; template<classK,classHash= HashFunc<K>> class HashTable{ public: HashTable(){ _table.resize(__stl_next_prime(0));} bool insert(const K& key){ if(!Find(key))return false; if((double)_n /(double)_table.size()>=0.7){ HashTable<K, Hash> newHt; newHt._table.resize(__stl_next_prime(_table.size()+1)); for(size_t i =0; i < _table.size(); i++){ if(_table[i]._status == EXIST){ newHt.insert(_table[i]._key); } } _table.swap(newHt._table); } Hash hs; size_t hash0 =hs(key)% _table.size();//计算出下标 size_t hashi = hash0; size_t i =1; while(_table[hashi]._status == EXIST){ hashi =(hashi + i)% _table.size(); i++; } _table[hashi]._key = key; _table[hashi]._status = EXIST; ++_n; return true; } HashDate<K>* Find(const K& key){ Hash hs; size_t hash0 =hs(key)% _table.size(); size_t hashi = hash0; size_t i =1; while(_table[hashi]._status == EXIST){ if(_table[hashi]._key == key)return &_table[hashi]; hashi =(hashi + i)% _table.size(); i++; if(i == _table.size())break; } return nullptr; } bool Erase(const K& key){ HashDate<K>* ptr =Find(key); if(ptr ==nullptr)return false; else{ ptr->_status = DELETE; --_n; return true; } } inline unsigned long __stl_next_prime(unsigned long n){// Note: assumes long is at least 32 bits static const int __stl_num_primes =28; static const unsigned long __stl_prime_list[__stl_num_primes]={53,97,193,389,769,1543,3079,6151,12289,24593,49157,98317,196613,393241,786433,1572869,3145739,6291469,12582917,25165843,50331653,100663319,201326611,402653189,805306457,1610612741,3221225473,4294967291}; const unsigned long* first = __stl_prime_list; const unsigned long* last = __stl_prime_list + __stl_num_primes; const unsigned long* pos =lower_bound(first, last, n); return pos == last ?*(last -1):*pos; } private: vector<HashDate<K>> _table; size_t _n =0; };

template<classK> struct HashFunc{ size_t operator()(const K& key){return(size_t)key;} }; template<> struct HashFunc<string>{// BKDR size_t operator()(const string& str){ size_t hash =0; for(auto ch : str){ hash += ch; hash *=131; } return hash; } }; inline unsigned long __stl_next_prime(unsigned long n){// Note: assumes long is at least 32 bits static const int __stl_num_primes =28; static const unsigned long __stl_prime_list[__stl_num_primes]={53,97,193,389,769,1543,3079,6151,12289,24593,49157,98317,196613,393241,786433,1572869,3145739,6291469,12582917,25165843,50331653,100663319,201326611,402653189,805306457,1610612741,3221225473,4294967291}; const unsigned long* first = __stl_prime_list; const unsigned long* last = __stl_prime_list + __stl_num_primes; const unsigned long* pos =lower_bound(first, last, n); return pos == last ?*(last -1):*pos; } template<classT> struct HashNode{ T _data; HashNode<T>* _next; HashNode(const T& data):_data(data),_next(nullptr){} }; template<classK,classT,classKeyOfT,classHash= HashFunc<K>> class HashTable{ typedef HashNode<T> Node; public: HashTable():_tables(__stl_next_prime(1),nullptr),_n(0){} ~HashTable(){ for(size_t i =0; i < _tables.size(); i++){ Node* cur = _tables[i];// 当前桶的节点重新映射挂到新表 while(cur){ Node* next = cur->_next; delete cur; cur = next; } _tables[i]=nullptr; } } bool Insert(const T& data){ KeyOfT kot; if(Find(kot(data)))return false; Hash hs;// 负载因子==1 扩容 if(_n == _tables.size()){ //HashTable<K, V> newHT;//newHT._tables.resize(_tables.size()*2); //// 遍历旧表将所有值映射到新表 //for (auto cur : _tables) //{ // while (cur) // { // newHT.Insert(cur->_kv); // cur = cur->_next; // } //} //_tables.swap(newHT._tables); vector<Node*>newtables(__stl_next_prime(_tables.size()+1)); for(size_t i =0; i < _tables.size(); i++){ Node* cur = _tables[i];// 当前桶的节点重新映射挂到新表 while(cur){ Node* next = cur->_next;// 插入到新表 size_t hashi =hs(kot(cur->_data))% newtables.size(); cur->_next = newtables[hashi]; newtables[hashi]= cur; cur = next; } _tables[i]=nullptr; } _tables.swap(newtables); } size_t hashi =hs(kot(data))% _tables.size();// 头插 Node* newNode =new Node(data); newNode->_next = _tables[hashi]; _tables[hashi]= newNode; ++_n; return true; } Node* Find(const K& key){ KeyOfT kot; Hash hs; size_t hashi =hs(key)% _tables.size(); Node* cur = _tables[hashi]; while(cur){ if(kot(cur->_data)== key)return cur; cur = cur->_next; } return nullptr; } bool Erase(const K& key){ KeyOfT kot; Hash hs; size_t hashi =hs(key)% _tables.size(); Node* prev =nullptr; Node* cur = _tables[hashi]; while(cur){ if(kot(cur->_data)== key){ if(prev ==nullptr){ _tables[hashi]= cur->_next; }else{ prev->_next = cur->_next; } delete cur; return true; } prev = cur; cur = cur->_next; } return false; } private: //vector<list<pair<K, V>>> _tables; vector<Node*> _tables; size_t _n =0;// 实际存储的数据个数 };

哈希表原理与哈希桶实现详解

前言

一、哈希概念

二、直接定址法

三、必会概念

3.1 哈希冲突

更多推荐文章

相关免费在线工具

3.2 负载因子

3.3 将关键字转为整数

四、哈希函数

4.1 除留余数法

4.2 乘法散列法（了解）

4.3 全域散列法（了解）

五、处理哈希冲突

5.1 开放定址法

5.2 链地址法（哈希桶）

总结

更多推荐文章

相关免费在线工具

哈希表原理与哈希桶实现详解

前言

一、哈希概念

二、直接定址法

三、必会概念

3.1 哈希冲突

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 负载因子

3.3 将关键字转为整数

四、哈希函数

4.1 除留余数法

4.2 乘法散列法（了解）

4.3 全域散列法（了解）

五、处理哈希冲突

5.1 开放定址法

5.2 链地址法（哈希桶）

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具