Fast Similarity Sketch 优化大规模文本去重及 C++ 实现 | 极客日志

C++AI算法

Fast Similarity Sketch 优化大规模文本去重及 C++ 实现

综述由AI生成介绍 Fast Similarity Sketching 算法在大规模文本去重中的应用。相比传统 MinHash/k-mins，该算法将复杂度从 O(kn) 降至 O(n + k log k)，在保持 Jaccard 估计无偏性的同时显著提升性能。文章对比了 datasketch、rensa 等工具，提供了 C++ 核心实现与 Python 封装示例，并展示了 LSH 召回曲线验证结果，适用于高吞吐场景下的近似重复检测。

黑客帝国发布于 2026/3/26更新于 2026/5/209K 浏览

Fast Similarity Sketch 优化大规模文本去重

论文背景：Fast Similarity Sketching（arXiv:1704.04370v4，FOCS'17 扩展版）

最近在做大规模文本去重时，我们基于 Fast Similarity Sketching 做了一个 Python 去重包 fastsketchlsh，也拿它和 datasketch、rensa 做了对比。这篇文章主要讲三件事：传统 k-mins 为什么慢，FastSketch 为什么快，以及它和 LSH 搭配后在工程里怎么落地。

先说结论

经典 k-mins / MinHash 用来估计 Jaccard，再配 banding LSH 做候选召回，是业界非常常见的近似去重路线。
datasketch 很常用，但它是纯 Python 实现，规模一大通常会慢；rensa 是 k-mins 路线里的 SOTA 工程实现（Rust），速度明显更好。
在 sketch 这一核心阶段，FastSimilaritySketch 相比 datasketch 甚至能到 200x。
Fast Similarity Sketching 的关键理论是：在保持 alignment + Chernoff 级别集中界的前提下，把 sketch 构造期望复杂度降到：

O(n + k log k)

其中 k 是 sketch size。

1. 大规模去重：常见的几条路线

做'去重'前先想清楚：你到底要去的是哪一种'重复'。

1.1 精确去重（Exactly Match）

最常见也最简单：

统一规范化（大小写、空白、标点、HTML 清洗等）后做哈希（MD5/SHA/xxhash）。
适用：完全重复、或你能把数据规整成'完全相同'的形式。

优点：快、准、实现简单。缺点：对'近似重复'（少量增删改、顺序变化、模板文本）不鲁棒。

1.2 近似去重（本文主要讲：集合相似度 Jaccard）

文本（或 token 序列） -> shingle / n-gram -> 看成集合 -> Jaccard 相似度：

J(A,B) = |A ∩ B| / |A ∪ B|

一个'两个集合很相近'的直观例子：

设 A={a,b,c,d,e,f,g,h,i,j}（10 个元素）
设 B={a,b,c,d,e,f,g,h,i,x}（只把 j 换成 x）
交集 |A∩B|=9，并集 |A∪B|=11

所以：

J(A,B) = 9/11 ≈ 0.818

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

sig_i(A) = min_{a∈A} h_i(a)

Ĵ(A,B) = (1/k) * Σ_{i=1 to k} 1[sig_i(A) = sig_i(B)]

Pr[sig_i(A) = sig_i(B)] = J(A,B)

Ĵ(A,B) = 3/4 = 0.75

P(candidate) = 1 - (1 - s^r)^b

O(k · n)

work_kmins ~ k · n

O(R · n)

E[R] = O(1 + k log k / n)

E[work] = O(n + k log k)

Input : set A, sketch size k, regular rounds 2k # paper notation: 2t
Output: sketch S[1..k]
Initialize S[i] = EMPTY for i = 1..k
# regular rounds
for r = 1..2k:
    for each token a in A:
        h = hash(r, a)
        bin = 1 + (h mod k)
        key = (r, h) # 保证早轮次优先、同轮按哈希最小
        S[bin] = min(S[bin], key)
        if all bins filled: break
# fallback rounds: only for empty bins
while exists empty bin:
    r = r + 1
    for each token a in A:
        h = hash(r, a)
        bin = 1 + (h mod k)
        if S[bin] is EMPTY:
            key = (r, h)
            S[bin] = min(S[bin], key)
return S

X_i = 1[S(A)[i] = S(B)[i]]

X = Σ_{i=1 to k} X_i

E[X_i] = J(A,B)

J = c / m

Σ_{r=1 to 2k} Pr[E_r] + Pr[E*] = 1

Pr[X_i = 1 | E] = Pr[W_i ∈ A ∩ B | E] = c / m = J

Pr[X_i = 1] = Σ_{r=1 to 2k} Pr[E_r] Pr[X_i = 1 | E_r] + Pr[E*] Pr[X_i = 1 | E*]
           = (Σ_{r=1 to 2k} Pr[E_r] + Pr[E*]) J = J

E[X_i] = Pr[X_i = 1] = J

W_i =d σ(W_i)

Σ_{x∈U} Pr[W_i = x] = 1 ⇒ mp = 1 ⇒ p = 1/m

Pr[X_i = 1] = Pr[W_i ∈ A ∩ B] = Σ_{x∈A∩B} Pr[W_i = x] = c · 1/m = c/m = J

Pr(|X - kJ| > εkJ) ≤ 2e^{-cε²kJ},  0 < ε ≤ 1

O(n + k log k)

O(k · n) → O(n + k log k)

Θ(k log k)

E[X_i] = J

E[X / k] = J

p_band = Pr[一个 band 的 r 行全相等]

p_band ≈ J^r

Π_{h=0 to r-1} max(0, (kJ-h)/(k-h)) ≤ p_band ≤ J^r

P(candidate) ≈ 1 - (1 - p_band)^b ≈ 1 - (1 - J^r)^b

Dataset	Threads	FastSketch Sketch(s)	FastSketch Build(s)	FastSketch Query(s)	FastSketch Total(s)	Rensa Total(s)	Total Speedup
PINECONE	1	0.500	0.082	0.000	0.582	0.891	1.53×
PINECONE	8	0.162	0.021	0.007	0.190	0.319	1.68×
SHUYUEJ	1	0.364	0.021	0.000	0.385	0.910	2.37×
SHUYUEJ	8	0.121	0.007	0.002	0.130	0.325	2.49×

Dataset	Old Build+Query(s)	New One-Shot(s)	Speedup	Flags Equal
PINECONE	0.155	0.106	1.47×	yes
SHUYUEJ	0.045	0.019	2.32×	yes

Dataset	Threads	Engine	Sketch(s)	Build(s)	Query(s)	Total(s)	Sketch Speedup	Total Speedup
BOOKS3	1	rensa	36.190	0.002	0.000	36.193	-	-
BOOKS3	1	fastsketchlsh	14.843	0.014	0.006	14.863	2.44×	2.44×
BOOKS3	8	rensa	24.605	0.002	0.000	24.607	-	-
BOOKS3	8	fastsketchlsh	14.191	0.006	0.003	14.199	1.73×	1.73×

pip install fastsketchlsh

git clone https://github.com/pzcddm/FastSketchLSH.git
cd FastSketchLSH/fastsketchlsh_ext
pip install .
pip install -r requirements.txt

from FastSketchLSH import FastSimilaritySketch, estimate_jaccard
list_a = [f"a-{i}" for i in range(16_000)]
list_b = [f"a-{i}" for i in range(8_000)] + [f"b-{i}" for i in range(8_000)]
sketcher = FastSimilaritySketch(size=256)
sig_a = sketcher(list_a)
sig_b = sketcher(list_b)
estimated = estimate_jaccard(sig_a, sig_b)
print(f"Estimated Jaccard similarity: {estimated:.4f}")

from __future__ import annotations
from datasets import load_dataset
from FastSketchLSH import FastSimilaritySketch, LSH

def tokenize(text: str) -> list[str]:
    return sorted({token for token in text.lower().split() if token})

dataset = load_dataset("lucadiliello/bookcorpusopen", split="train[:2048]")
texts = [row["text"] for row in dataset if row.get("text")]
token_sets = [tokenize(text) for text in texts]
sketcher = FastSimilaritySketch(size=128, seed=42)
sketch_matrix = sketcher.batch(token_sets)
lsh = LSH(num_perm=128, num_bands=16)
dup_flags = lsh.insert_and_query_duplicates(sketch_matrix).tolist()
doc_idx = 0
candidates = lsh.query(sketch_matrix[doc_idx])
print(f"Candidates for {doc_idx}:", candidates)
print("Duplicate flags:", dup_flags)
print("Total duplicates detected:", sum(dup_flags))

python -m exps.end2end.run --engine fastsketch --dataset PINECONE
python -m exps.end2end.run --engine rensa --dataset PINECONE
# 批量跑 README 里的对比表
bash exps/end2end/run_all_comparisons.sh

Fast Similarity Sketch 优化大规模文本去重及 C++ 实现

Fast Similarity Sketch 优化大规模文本去重

先说结论

1. 大规模去重：常见的几条路线

1.1 精确去重（Exactly Match）

1.2 近似去重（本文主要讲：集合相似度 Jaccard）

更多推荐文章

相关免费在线工具

1.3 其他路线

2. 为什么 k-mins / MinHash + LSH 这么流行？

2.1 k-mins / MinHash 的核心性质（和 Jaccard 的关系）

2.2 为什么能和 LSH 结合：banding 概率曲线

3. 为什么很多工程里 datasketch / 传统 MinHash 仍然慢？

3.1 一个关键问题：能不能不做 `k` 次全量扫描？

4. Fast Similarity Sketching：更快且保留 MinHash 级别性质

4.0 先看 FastSketch 伪代码（工程版）

4.1 先把符号讲清楚：什么是 `S(A)[i]`、alignment、Chernoff-style concentration

4.2 核心算法（Similarity-S）

4.3 关键复杂度结论（Lemma 1）

4.4 为什么还能估计 Jaccard 并有 Chernoff 集中

5. FastSketchLSH 这个 repo 具体做了什么？

6. 我们的 FastSketch 实现原理（工程版本）

7. 为什么 FastSketch 也能和 LSH 配合得很好？

7.1 我们自己模拟的 S-curve：k-mins LSH 和 FastSketch LSH 几乎重叠

7.2 为什么我们没完全照搬论文那套 LSH 结构？

8. 结果：速度与准确性

8.0 实验设置

8.1 估计分布/方差（simulation）

8.2 去重流水线时间（evaluation）

9. 快速上手：安装与最小示例

9.1 安装

9.2 生成 sketch 并估计 Jaccard

9.3 LSH：one-shot duplicate flags + query

9.4 复现端到端对比（fastsketch vs rensa）

10. 参数建议与常见坑

11. 总结

项目地址

参考

更多推荐文章

相关免费在线工具

Fast Similarity Sketch 优化大规模文本去重及 C++ 实现

Fast Similarity Sketch 优化大规模文本去重

先说结论

1. 大规模去重：常见的几条路线

1.1 精确去重（Exactly Match）

1.2 近似去重（本文主要讲：集合相似度 Jaccard）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.3 其他路线

2. 为什么 k-mins / MinHash + LSH 这么流行？

2.1 k-mins / MinHash 的核心性质（和 Jaccard 的关系）

2.2 为什么能和 LSH 结合：banding 概率曲线

3. 为什么很多工程里 datasketch / 传统 MinHash 仍然慢？

3.1 一个关键问题：能不能不做 k 次全量扫描？

4. Fast Similarity Sketching：更快且保留 MinHash 级别性质

4.0 先看 FastSketch 伪代码（工程版）

4.1 先把符号讲清楚：什么是 S(A)[i]、alignment、Chernoff-style concentration

4.2 核心算法（Similarity-S）

4.3 关键复杂度结论（Lemma 1）

4.4 为什么还能估计 Jaccard 并有 Chernoff 集中

5. FastSketchLSH 这个 repo 具体做了什么？

6. 我们的 FastSketch 实现原理（工程版本）

7. 为什么 FastSketch 也能和 LSH 配合得很好？

7.1 我们自己模拟的 S-curve：k-mins LSH 和 FastSketch LSH 几乎重叠

7.2 为什么我们没完全照搬论文那套 LSH 结构？

8. 结果：速度与准确性

8.0 实验设置

8.1 估计分布/方差（simulation）

8.2 去重流水线时间（evaluation）

9. 快速上手：安装与最小示例

9.1 安装

9.2 生成 sketch 并估计 Jaccard

9.3 LSH：one-shot duplicate flags + query

9.4 复现端到端对比（fastsketch vs rensa）

10. 参数建议与常见坑

11. 总结

项目地址

参考

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.1 一个关键问题：能不能不做 `k` 次全量扫描？

4.1 先把符号讲清楚：什么是 `S(A)[i]`、alignment、Chernoff-style concentration