位图、布隆过滤器与哈希切分的高效数据处理技术

前言

本文将深入探索哈希的三大高效应用——位图、布隆过滤器和哈希切分。它们如同精巧的齿轮，共同驱动着现代计算系统的高效运作。从减少存储空间到加速查找效率，从数据去重到流式处理，这些技术在幕后发挥着巨大的力量。

一、位图

1.1 面试题

给 40 亿个不重复的无符号整数，没排过序。给一个无符号整数，如何快速判断一个数是否在这 40 亿个数中。

问题剖析：

40 亿个整数代表 160 亿个 Byte。1 GB = 1024 MB = 1024^2 KB = 1024^3 Byte，所以 160 亿 Byte ≈ 16 GB。显然在内存中存储 16 GB 的内容不合理，那我们该怎么去解决呢？这道题目本质上是让我们去判断在不在，因此我们无需将这 40 亿个整数都存起来，只需要用一个标志位去判断在不在，比如 1 表示在，0 表示不在。存储标志位的最小单位是 bit。大体思路有了，下面引出位图的概念，这道题目需要使用位图去解决。

1.2 位图的概念

位图（bitset） 是一种使用位（bit）来表示某个元素存在与否的数据结构。每个位可以存储一个二进制值（0 或 1），这使得位图在表示大量数据时非常高效，尤其适合判断数据是否存在。

存储结构：位图使用一个比特数组（即一个由二进制位构成的数组）来存储信息。每一位（bit）对应一个可能的元素。对于给定的数据范围，每个可能的值在位图中对应一个唯一的位置。
操作方法：
- 设置位（set）：将某一位置上的位设为 1，表示该位置对应的元素存在。
- 清除位（reset）：将某一位置上的位设为 0，表示该位置对应的元素不存在。
- 检查位（test）：检查某一位置上的位是 1 还是 0，以判断该元素是否存在。

先补充一个内容，小端字节序：人们习惯于将数据的高位写在左边，可在大多数 PC 端，字节的排序却是从右往左。

如上图所示，要判断一个数字是否在 a 数组中，这里我们可以借助位图来实现。这里我们采用直接定址法，即 a 中的每一个数字都对应一个比特位，互相不重复。这就要求位图的大小是 a 数组中整型变量的范围。a 中整型的范围是 [1, 2^2]，里面一共包含 2^2 个整型，因此这里的位图需要 2^2 个比特位。一个 unsigned int 型会向内存申请 4 个字节（32 Byte），所以这里我们创建一个可以存储 4 个字节的整型数组来充当位图（图中只显示有作用的 3 个字节）。有了位图之后，接下来我们就需要对位图中的每一位进行标记，将 a 中的整型所对应的位图中的位设置成 1。然后给我们一个整型数据 x，要判断 x 是否在 array 中，我们只需要去判断 x 对应位图中的那个位上是 1 还是 0，如果是 1 就说明 array 中存在 x 这个整型，如果是 0 说明 array 中不存在 x 这个整型。

**位图的存储方式：**下面演示一下位图的存储方式。

1.3 位图的解决方案

1.3.1 原理

使用位图表示每个无符号整数的存在状态。由于无符号整数的范围为 0 到 2^32-1，我们可以用 2^32 个比特位（约 512 MB 内存）来表示每个数的存在状态。
位图的每一位表示一个整数是否存在。

1.3.2 实现步骤

初始化一个 2^32 大小的位数组，每个位表示一个可能的整数。
遍历 40 亿个数，对于每个数 x，将位图 bitset[x] 设置为 1，表示该数存在。
对于给定的查询数 num，检查 bitset[num] 是否为 1，如果是则存在，否则不存在。

1.3.3 实现过程

模拟实现 bitset

namespace xny {
< N>
  {
:
    
    () : ((N + ) / , ) {}

    
    { bits[num / ] |= ( << num % ); }

    
    { bits[num / ] &= (~( << num % )); }

    
    {  bits[num / ] & ( << num % ); }

:
    vector< > bits; 
};
}

特性	布隆过滤器	HashMap
空间占用	较小，可调节	较大，随数据量增长
误判率	允许控制的假阳性	无误判（精确判断）
支持的数据量	极大，适合海量数据	较大，但容易耗尽内存
应用场景	快速去重、存在性判断	精确查找、键值对存储
删除操作	不支持	支持
查询性能	稳定，不受哈希冲突影响	冲突较多时性能可能降低

位图、布隆过滤器与哈希切分的高效数据处理技术

前言

一、位图

1.1 面试题

1.2 位图的概念

1.3 位图的解决方案

1.3.1 原理

1.3.2 实现步骤

1.3.3 实现过程

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.3.4 优点

1.4 位图应用

二、布隆过滤器

2.1 布隆过滤器的开发历史

2.2 什么是布隆过滤器

2.3 布隆过滤器的实现原理

2.3.1 布隆过滤器的初步认识

2.3.2 布隆过滤器的模拟实现

2.3.3 布隆过滤器的误判率

1. 位数组的大小（m）

2. 哈希函数的数量（k）

3. 插入的元素数量（n）

4. 哈希函数的质量

5. 布隆过滤器误判率的公式

2.3.4 布隆过滤器的删除

1. 为什么布隆过滤器不能直接删除

2. 实现布隆过滤器删除的替代方案：计数布隆过滤器（Counting Bloom Filter）

2.4 哈希表相比于布隆过滤器的缺点

2.4.1 内存占用较大

2.4.2 无法控制内存空间和误判率之间的平衡

2.4.3 不适合处理海量数据

2.4.4 不支持快速去重操作

2.4.5 不适合用于'可能存在'查询

2.4.6 计算复杂度和哈希冲突问题

2.4.7 总结对比

三、哈希切分

3.1 哈希切分的基本思想

3.2 哈希切分的步骤

3.3 哈希切分的应用场景

3.4 哈希切分的优缺点

3.5 哈希切分的应用

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具