深入理解哈希表：原理、源码与设计哲学 | 极客日志

Javajava算法

深入理解哈希表：原理、源码与设计哲学

深入解析哈希表数据结构，以 Java HashMap 为例分析其核心原理与源码实现。涵盖哈希函数设计、冲突解决机制（链表转红黑树）、扩容策略及负载因子选择等关键决策。同时对比开放寻址法等其他方案，提供性能分析与最佳实践建议，帮助开发者理解哈希表背后的设计哲学并优化实际使用。

活在当下发布于 2026/3/28更新于 2026/7/943 浏览

引言

哈希表（Hash Table）是计算机科学中最重要的数据结构之一，它以近乎 O(1) 的时间复杂度提供了快速的插入、查找和删除操作。从编程语言的内置字典（如 Python 的 dict、Java 的 HashMap）到数据库索引，哈希表无处不在。本文将深入探讨哈希表的工作原理，分析其经典实现的源码，并解释背后的设计决策。

一、哈希表的基本原理

1.1 核心思想

哈希表的核心思想是通过哈希函数将键（key）映射到数组的索引位置，从而实现快速访问。这个过程可以描述为：

index = hash_function(key) % array_size

理想情况下，每个键都会映射到唯一的索引位置，但实际上会发生哈希冲突（collision），即不同的键映射到相同的索引。

1.2 关键组成部分

一个完整的哈希表实现包含以下核心组件：

底层数组：存储实际数据的容器
哈希函数：将键转换为数组索引
冲突解决机制：处理多个键映射到同一位置的情况
扩容机制：当负载因子过高时动态调整容量

二、源码分析：以 Java HashMap 为例

让我们通过 Java 8 的 HashMap 源码来理解哈希表的实际实现。

2.1 核心数据结构

public class HashMap<K,V> extends AbstractMap<K,V>
    implements Map<K,V>, Cloneable, Serializable {
    // 默认初始容量 - 必须是 2 的幂
    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // 16

    // 最大容量
    static final int MAXIMUM_CAPACITY = 1 << 30;

    // 默认负载因子
    static final float DEFAULT_LOAD_FACTOR = ;

    
         ;

    
         ;

    
     Node<K,V>[] table;

    
      size;

    
     threshold;

    
      loadFactor;
}

相关免费在线工具

Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online
JavaScript 压缩与混淆
Terser 压缩、变量名混淆，或 javascript-obfuscator 高强度混淆（体积会增大）。在线工具，JavaScript 压缩与混淆在线工具，online
加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online

static class Node<K,V> implements Map.Entry<K,V> {
    final int hash;
    // 缓存的哈希值
    final K key;
    V value;
    Node<K,V> next;
    // 指向下一个节点

    Node(int hash, K key, V value, Node<K,V> next) {
        this.hash = hash;
        this.key = key;
        this.value = value;
        this.next = next;
    }

    public final K getKey() { return key; }
    public final V getValue() { return value; }
    public final V setValue(V newValue) {
        V oldValue = value;
        value = newValue;
        return oldValue;
    }
}

static final int hash(Object key) {
    int h;
    // 将高 16 位与低 16 位进行异或运算
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

public V get(Object key) {
    Node<K,V> e;
    return (e = getNode(hash(key), key)) == null ? null : e.value;
}

final Node<K,V> getNode(int hash, Object key) {
    Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
    // 1. 检查 table 是否为空，计算索引位置
    if ((tab = table) != null && (n = tab.length) > 0 &&
       (first = tab[(n - 1) & hash]) != null) {
            // 2. 检查第一个节点
        if (first.hash == hash &&
           ((k = first.key) == key || (key != null && key.equals(k))))
            return first;

            // 3. 遍历链表或红黑树
        if ((e = first.next) != null) {
            if (first instanceof TreeNode)
                // 红黑树查找
                return ((TreeNode<K,V>)first).getTreeNode(hash, key);
            do {
                // 链表查找
                if (e.hash == hash &&
                   ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    return null;
}

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;

    // 1. 如果 table 为空，进行初始化
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;

    // 2. 如果目标位置为空，直接插入
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    else {
        Node<K,V> e; K k;

        // 3. 如果 key 已存在于第一个节点
        if (p.hash == hash &&
           ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;

        // 4. 如果是红黑树节点
        else if (p instanceof TreeNode)
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);

        // 5. 链表插入
        else {
            for (int binCount = 0; ; ++binCount) {
                if ((e = p.next) == null) {
                    p.next = newNode(hash, key, value, null);
                    // 链表长度达到阈值，转换为红黑树
                    if (binCount >= TREEIFY_THRESHOLD - 1)
                        treeifyBin(tab, hash);
                    break;
                }
                if (e.hash == hash &&
                   ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }

        // 6. 如果 key 已存在，更新 value
        if (e != null) {
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            return oldValue;
        }
    }

    ++modCount;
    // 7. 检查是否需要扩容
    if (++size > threshold)
        resize();
    return null;
}

final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int oldThr = threshold;
    int newCap, newThr = 0;

    if (oldCap > 0) {
        // 已达到最大容量
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        // 容量翻倍
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
            newThr = oldThr << 1;
    }
    // ... 初始化逻辑

    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    table = newTab;

    if (oldTab != null) {
        // 重新哈希所有元素
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e;
            if ((e = oldTab[j]) != null) {
                oldTab[j] = null;
                if (e.next == null)
                    // 单个节点直接重新定位
                    newTab[e.hash & (newCap - 1)] = e;
                else if (e instanceof TreeNode)
                    // 红黑树拆分
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                else {
                    // 链表拆分
                    Node<K,V> loHead = null, loTail = null;
                    Node<K,V> hiHead = null, hiTail = null;
                    Node<K,V> next;
                    do {
                        next = e.next;
                        // 巧妙的位运算判断
                        if ((e.hash & oldCap) == 0) {
                            if (loTail == null)
                                loHead = e;
                            else
                                loTail.next = e;
                            loTail = e;
                        } else {
                            if (hiTail == null)
                                hiHead = e;
                            else
                                hiTail.next = e;
                            hiTail = e;
                        }
                    } while ((e = next) != null);

                    if (loTail != null) {
                        loTail.next = null;
                        newTab[j] = loHead;
                    }
                    if (hiTail != null) {
                        hiTail.next = null;
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    return newTab;
}

def insert(key, value):
    index = hash(key) % size
    while table[index] is not None:
        if table[index].key == key:
            table[index].value = value # 更新
            return
        index = (index + 1) % size # 线性探测
    table[index] = Entry(key, value)

操作	平均情况	最坏情况
查找	O(1)	O(n) 或 O(log n)*
插入	O(1)	O(n) 或 O(log n)*
删除	O(1)	O(n) 或 O(log n)*

public class CustomKey {
    private String id;
    private int type;

    @Override
    public int hashCode() {
        // 使用 Objects.hash 或自行实现
        return Objects.hash(id, type);
    }

    @Override
    public boolean equals(Object obj) {
        if (this == obj) return true;
        if (obj == null || getClass() != obj.getClass()) return false;
        CustomKey other = (CustomKey) obj;
        return type == other.type && Objects.equals(id, other.id);
    }
}

// 如果知道大概会存储 1000 个元素
int expectedSize = 1000;
int initialCapacity = (int) (expectedSize / 0.75f + 1.0f);
Map<String, String> map = new HashMap<>(initialCapacity);

深入理解哈希表：原理、源码与设计哲学

引言

一、哈希表的基本原理

1.1 核心思想

1.2 关键组成部分

二、源码分析：以 Java HashMap 为例

2.1 核心数据结构

更多推荐文章

相关免费在线工具

2.2 节点结构

2.3 哈希函数实现

2.4 查找操作

2.5 插入操作

2.6 扩容机制

三、关键设计决策分析

3.1 为什么容量必须是 2 的幂？

3.2 为什么默认负载因子是 0.75？

3.3 为什么要在链表长度达到 8 时转换为红黑树？

3.4 为什么要进行 hash 扰动？

四、其他冲突解决方案

4.1 开放寻址法（Open Addressing）

4.2 二次探测

4.3 双重哈希

五、性能分析

5.1 时间复杂度

5.2 空间复杂度

5.3 影响性能的因素

六、实践建议

6.1 自定义键类时的注意事项

6.2 选择合适的初始容量

6.3 线程安全考虑

七、总结

参考资源

更多推荐文章

相关免费在线工具

深入理解哈希表：原理、源码与设计哲学

引言

一、哈希表的基本原理

1.1 核心思想

1.2 关键组成部分

二、源码分析：以 Java HashMap 为例

2.1 核心数据结构

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 节点结构

2.3 哈希函数实现

2.4 查找操作

2.5 插入操作

2.6 扩容机制

三、关键设计决策分析

3.1 为什么容量必须是 2 的幂？

3.2 为什么默认负载因子是 0.75？

3.3 为什么要在链表长度达到 8 时转换为红黑树？

3.4 为什么要进行 hash 扰动？

四、其他冲突解决方案

4.1 开放寻址法（Open Addressing）

4.2 二次探测

4.3 双重哈希

五、性能分析

5.1 时间复杂度

5.2 空间复杂度

5.3 影响性能的因素

六、实践建议

6.1 自定义键类时的注意事项

6.2 选择合适的初始容量

6.3 线程安全考虑

七、总结

参考资源

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具