Python 布谷鸟哈希算法与分布式哈希表实现 | 极客日志

Python算法

Python 布谷鸟哈希算法与分布式哈希表实现

介绍哈希算法原理及其在数据存储和检索中的应用。内容涵盖布谷鸟哈希算法的机制与 Python 实现，支持插入、删除和查找操作。同时讲解分布式哈希表特点，提供一致性哈希算法的 Python 代码示例，展示如何在分布式系统中实现数据分散存储与节点管理，解决高性能和可扩展性问题。

Stephaine Walsh发布于 2026/3/28更新于 2026/7/1541 浏览

引言

在计算机科学和分布式系统中，哈希算法是一项关键技术，它被广泛用于数据存储和检索。本文重点介绍布谷鸟哈希算法和分布式哈希表的原理，以及如何在 Python 中实现它们。每一行代码都将有详细的注释，以帮助你理解算法的实现。

1. 什么是哈希算法？

哈希算法是一种将任意长度的输入数据转换为固定长度的输出数据的技术。哈希函数将输入映射到输出，这个输出通常称为哈希值或摘要。哈希算法的关键特点是，无论输入的大小如何，输出的长度都是固定的。

1.1 哈希算法的用途

哈希算法在计算机科学中有多种用途，包括：

数据完整性验证：通过比较文件的哈希值来验证文件是否在传输过程中被篡改。
数据检索：在哈希表中查找数据的高效方式。
密码存储：存储密码的哈希值而不是明文密码，以增加安全性。

2. 布谷鸟哈希算法

布谷鸟哈希算法是一种动态哈希算法，它用于动态维护一个哈希表，支持插入、删除和查找操作。它的主要思想是将数据分散存储在多个桶中，以避免哈希冲突的发生。

2.1 布谷鸟哈希表的特点

动态调整大小：布谷鸟哈希表可以动态调整大小以适应数据的变化。
插入、删除、查找操作：支持高效的插入、删除和查找操作。
避免哈希冲突：通过分散数据存储在多个桶中，避免了哈希冲突。

2.2 布谷鸟哈希算法的伪代码

以下是布谷鸟哈希算法的简化伪代码：

function insert(key, value)
    bucket = hash(key) # 计算哈希值确定桶
    if bucket is full:
        if another bucket is not full:
            move an item from the full bucket to the other
        else:
            rehash the table, doubling its size
            insert the (key, value) pair
    else:
        insert (key, value) into the bucket

function delete(key)
    bucket = hash(key)
    if key is found in the bucket:
        remove (key, value) from the bucket
    else:
        search in nearby buckets and remove if found

 search()
    bucket = hash()
       found  the bucket:
         value
    :
        search  nearby buckets    found
      found

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

class CuckooHash:
    def __init__(self, size):
        self.size = size
        self.buckets1 = [None] * size
        self.buckets2 = [None] * size

    def insert(self, key, value):
        if self.insert_into_bucket(self.buckets1, key, value):
            return
        if self.insert_into_bucket(self.buckets2, key, value):
            return
        self.rehash()
        self.insert(key, value)

    def insert_into_bucket(self, bucket, key, value):
        index = hash(key) % self.size
        if bucket[index] is None:
            bucket[index] = (key, value)
            return True
        return False

    def rehash(self):
        new_size = self.size * 2
        new_buckets1 = [None] * new_size
        new_buckets2 = [None] * new_size
        self.size = new_size
        for bucket, new_bucket in [(self.buckets1, new_buckets1), (self.buckets2, new_buckets2)]:
            for item in bucket:
                if item:
                    key, value = item
                    self.insert_into_bucket(new_bucket, key, value)
        self.buckets1 = new_buckets1
        self.buckets2 = new_buckets2

    def search(self, key):
        index1 = hash(key) % self.size
        if self.buckets1[index1] and self.buckets1[index1][0] == key:
            return self.buckets1[index1][1]
        index2 = hash(key) % self.size
        if self.buckets2[index2] and self.buckets2[index2][0] == key:
            return self.buckets2[index2][1]
        return None

import hashlib

class ConsistentHash:
    def __init__(self, nodes, replication_factor=3):
        self.replication_factor = replication_factor
        self.ring = {}
        for node in nodes:
            for i in range(replication_factor):
                key = self.get_hash(f"{node}:{i}")
                self.ring[key] = node

    def get_node(self, key):
        if not self.ring:
            return None
        hash_key = self.get_hash(key)
        keys = list(self.ring.keys())
        keys.sort()
        for ring_key in keys:
            if hash_key <= ring_key:
                return self.ring[ring_key]
        return self.ring[keys[0]]

    def get_hash(self, key):
        return int(hashlib.md5(key.encode()).hexdigest(), 16)

import hashlib
import bisect

class ConsistentHash:
    """一致性哈希实现"""
    def __init__(self, nodes=None, virtual_nodes=100):
        """初始化一致性哈希环
        :param nodes: 初始节点列表（字符串标识）
        :param virtual_nodes: 每个物理节点对应的虚拟节点数量
        """
        self.virtual_nodes = virtual_nodes
        self.ring = []
        self.node_map = {}
        if nodes:
            for node in nodes:
                self.add_node(node)

    def _hash(self, key):
        """使用 MD5 计算哈希值，返回一个整数"""
        return int(hashlib.md5(key.encode('utf-8')).hexdigest(), 16)

    def add_node(self, node):
        """添加一个物理节点及其虚拟节点到环中"""
        for i in range(self.virtual_nodes):
            virtual_key = f"{node}#{i}"
            hash_val = self._hash(virtual_key)
            pos = bisect.bisect_left(self.ring, hash_val)
            if pos < len(self.ring) and self.ring[pos] == hash_val:
                continue
            self.ring.insert(pos, hash_val)
            self.node_map[hash_val] = node

    def remove_node(self, node):
        """移除一个物理节点及其所有虚拟节点"""
        to_remove = []
        for hash_val, n in self.node_map.items():
            if n == node:
                to_remove.append(hash_val)
        for hash_val in to_remove:
            self.ring.remove(hash_val)
            del self.node_map[hash_val]

    def get_node(self, key):
        """返回给定 key 应该映射到的物理节点"""
        if not self.ring:
            return None
        hash_val = self._hash(key)
        pos = bisect.bisect_left(self.ring, hash_val)
        if pos == len(self.ring):
            pos = 0
        target_hash = self.ring[pos]
        return self.node_map[target_hash]

    def get_nodes_distribution(self, keys):
        """辅助函数：返回一组键在各个节点上的分布计数"""
        dist = {}
        for key in keys:
            node = self.get_node(key)
            dist[node] = dist.get(node, 0) + 1
        return dist

if __name__ == "__main__":
    nodes = ["node1", "node2", "node3"]
    ch = ConsistentHash(nodes, virtual_nodes=50)
    test_keys = [f"key{i}" for i in range(1000)]
    distribution = ch.get_nodes_distribution(test_keys)
    print("初始分布:", distribution)
    ch.add_node("node4")
    distribution = ch.get_nodes_distribution(test_keys)
    print("添加 node4 后分布:", distribution)
    ch.remove_node("node2")
    distribution = ch.get_nodes_distribution(test_keys)
    print("移除 node2 后分布:", distribution)

Python 布谷鸟哈希算法与分布式哈希表实现

引言

1. 什么是哈希算法？

1.1 哈希算法的用途

2. 布谷鸟哈希算法

2.1 布谷鸟哈希表的特点

2.2 布谷鸟哈希算法的伪代码

更多推荐文章

相关免费在线工具

2.3 Python 中的布谷鸟哈希算法实现

3. 分布式哈希表

3.1 分布式哈希表的特点

3.2 一致性哈希算法

3.3 Python 中的一致性哈希算法实现

4. 总结

更多推荐文章

相关免费在线工具

Python 布谷鸟哈希算法与分布式哈希表实现

引言

1. 什么是哈希算法？

1.1 哈希算法的用途

2. 布谷鸟哈希算法

2.1 布谷鸟哈希表的特点

2.2 布谷鸟哈希算法的伪代码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 Python 中的布谷鸟哈希算法实现

3. 分布式哈希表

3.1 分布式哈希表的特点

3.2 一致性哈希算法

3.3 Python 中的一致性哈希算法实现

4. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具