C++ 位图与布隆过滤器实现及应用 | 极客日志

C++算法

C++ 位图与布隆过滤器实现及应用

基于哈希的数据结构位图和布隆过滤器，用于处理海量数据查找问题。详细讲解了位图的结构、置位、复位及测试操作，以及布隆过滤器的多哈希函数设计、优缺点分析。此外，还涵盖了哈希切割解决大数据 Top K 问题、双位图法统计频次、文件交集计算等常见面试题的精确与近似算法方案。

日志猎手发布于 2026/3/30更新于 2026/7/2048 浏览

1. 位图

给 40 亿个不重复的无符号整数，没排过序。给一个无符号整数，如何快速判断一个数是否在这 40 亿个数中？

放在哈希表中去寻找？不，这并不现实，因为哈希表的存储也是需要空间消耗的，况且是 40 亿个数据，如此庞大的数据计算机一般是很难存储。

因此就诞生了位图的概念，位图简单来说就是把每个数按照哈希函数的计算，存储到每个比特位上。数据是否在给定的整形数据中，结果是在或者不在，刚好是两种状态，那么可以使用一个二进制比特位来代表数据是否存在的信息，如果二进制比特位为 1，代表存在，为 0 代表不存在。

示意图

1.1 位图的结构

template<size_t N>
class bitset {
public:
    bitset() { _a.resize(N / 32 + 1); }
private:
    std::vector<int> _a;
};

开辟一个 vector 数组 _a，这里我们以 int 作为位图的基本单位，那么就是把每个数据存储到 int 的比特位上。

值得注意的是：resize 的时候无论如何都要加 1，比如 100 个数据，除以 32，等于 3，余 4，那么就需要多一个 int 空间来存储，不能说每次都卡好刚好 32 整除。

1.2 位图映射的比特位标记成 1

// x 映射的那个标记成 1
void set(size_t x) {
    size_t i = x / 32;
    size_t j = x % 32;
    _a[i] |= (1 << j);
}

i 用于确定在第几个 int 里，j 用于确定在第几个 int 的第几位上。

示意图

二进制位从右到左是最低位到最高位，所以左移即可。

1.3 位图映射的比特位标记成 0

// x 映射的那个标记成 0
  {
     i = x / ;
     j = x % ;
    _a[i] &= (~( << j));
}

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online

bool test(size_t x) {
    size_t i = x / 32;
    size_t j = x % 32;
    return _a[i] & (1 << j);
}

template<size_t N, class K = string, class Hash1 = BKDRHash, class Hash2 = APHash, class Hash3 = DJBHash>
class BloomFilter {
private:
    std::bitset<N> _bs;
};

struct BKDRHash {
    size_t operator()(const string& str) {
        size_t hash = 0;
        for (auto ch : str) {
            hash = hash * 131 + ch;
        }
        return hash;
    }
};

struct APHash {
    size_t operator()(const string& str) {
        size_t hash = 0;
        for (size_t i = 0; i < str.size(); i++) {
            size_t ch = str[i];
            if ((i & 1) == 0) {
                hash ^= ((hash << 7) ^ ch ^ (hash >> 3));
            } else {
                hash ^= (~((hash << 11) ^ ch ^ (hash >> 5)));
            }
        }
        return hash;
    }
};

struct DJBHash {
    size_t operator()(const string& str) {
        size_t hash = 5381;
        for (auto ch : str) {
            hash += (hash << 5) + ch;
        }
        return hash;
    }
};

void Set(const K& key) {
    size_t hash1 = Hash1()(key) % N;
    _bs.set(hash1);
    size_t hash2 = Hash2()(key) % N;
    _bs.set(hash2);
    size_t hash3 = Hash3()(key) % N;
    _bs.set(hash3);
}

bool Test(const K& key) {
    size_t hash1 = Hash1()(key) % N;
    if (_bs.test(hash1) == false) return false;
    size_t hash2 = Hash2()(key) % N;
    if (_bs.test(hash2) == false) return false;
    size_t hash3 = Hash3()(key) % N;
    if (_bs.test(hash3) == false) return false;
    return true;
}

template<size_t N>
class twobitset {
public:
    void set(size_t x) {
        // 00 -> 01
        if (!_bs1.test(x) && !_bs2.test(x)) {
            _bs2.set(x);
        }
        // 01 -> 10
        else if (!_bs1.test(x) && _bs2.test(x)) {
            _bs1.set(x);
            _bs2.reset(x);
        }
        // 本身 10 代表出现 2 次及以上，就不变了
    }
    bool is_once(size_t x) {
        return !_bs1.test(x) && _bs2.test(x);
    }
private:
    std::bitset<N> _bs1;
    std::bitset<N> _bs2;
};

C++ 位图与布隆过滤器实现及应用

1. 位图

1.1 位图的结构

1.2 位图映射的比特位标记成 1

1.3 位图映射的比特位标记成 0

更多推荐文章

相关免费在线工具

1.4 位图映射判断为 1 or 0

2. 布隆过滤器

2.1 布隆过滤器的结构

2.2 布隆过滤器的哈希函数

2.3 布隆过滤器的插入

2.4 布隆过滤器映射判断为 true or false

2.5 布隆过滤器的优缺点

3. 常见面试题

3.1 哈希切割

3.1.1 问题一

3.1.2 问题二

3.2 位图应用

3.2.1 问题一

3.2.2 问题二

3.2.3 问题三

3.3 布隆过滤器应用

3.3.1 问题一

3.3.2 问题二

更多推荐文章

相关免费在线工具

C++ 位图与布隆过滤器实现及应用

1. 位图

1.1 位图的结构

1.2 位图映射的比特位标记成 1

1.3 位图映射的比特位标记成 0

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.4 位图映射判断为 1 or 0

2. 布隆过滤器

2.1 布隆过滤器的结构

2.2 布隆过滤器的哈希函数

2.3 布隆过滤器的插入

2.4 布隆过滤器映射判断为 true or false

2.5 布隆过滤器的优缺点

3. 常见面试题

3.1 哈希切割

3.1.1 问题一

3.1.2 问题二

3.2 位图应用

3.2.1 问题一

3.2.2 问题二

3.2.3 问题三

3.3 布隆过滤器应用

3.3.1 问题一

3.3.2 问题二

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具