数据结构核心：KMP 算法、Trie 树与并查集详解 | 极客日志

C++算法

数据结构核心：KMP 算法、Trie 树与并查集详解

KMP 算法利用 next 数组避免主串回溯，显著提升字符串匹配效率；Trie 树通过共享前缀实现高效字符串存储与检索；并查集则通过树形结构管理集合合并与元素归属，配合路径压缩可近乎常数时间完成操作。文章结合 C++ 代码实例，剖析暴力匹配瓶颈、模式串性质推导、字典树节点索引机制及集合大小统计方法，帮助读者理解核心数据结构的设计思想与工程应用。

赛博朋克发布于 2026/3/21更新于 2026/7/2435 浏览

数据结构核心：KMP 算法、Trie 树与并查集详解

字符串匹配和集合管理是算法竞赛及工程中的高频场景。今天我们来深入聊聊三个经典数据结构：KMP 算法、Trie 树以及并查集。我会结合 C++ 代码，把原理和实现细节掰开揉碎讲清楚。

KMP 算法

暴力匹配的瓶颈

处理字符串匹配问题时，最直观的想法是暴力枚举。假设主串为 S，模式串为 P，暴力做法就是拿 P 去跟 S 的每一个位置比对。一旦遇到不匹配，P 就退回到开头，S 的指针前移一位。

for(int i = 1; i <= m; i++) { // 枚举主串起点
    bool flag = true;
    for(int j = 1; j <= n; j++) {
        if(S[i+j-1] != P[j]) {
            flag = false;
            break;
        }
    }
}

这种写法在数据量大时很容易超时，因为每次失败都要回溯。我们需要利用模式串本身的性质来优化。

核心原理与 next 数组

KMP 的核心在于：当匹配失败时，我们不需要把 P 从头开始，而是根据已经匹配的部分，直接跳到下一个可能的位置。这个'跳多少'的信息，就存在 next 数组里。

next[i] 的含义是：以 i 结尾的子串中，最长相等前后缀的长度。比如 next[i] = j，意味着 P[1...j] 和 P[i-j+1...i] 是相等的。

求 next 数组的过程其实也是一个匹配过程。我们假设 j 是当前匹配长度，如果 P[i] == P[j+1]，说明可以延长匹配；如果不等，就利用 next[j] 回退，直到找到可匹配的前缀或 j=0。

// 计算 next 数组（ne 即 next）
for(int i = 2, j = 0; i <= n; i++) {
    while(j && P[i] != P[j + 1]) j = ne[j];
    if(P[i] == P[j + 1]) j++;
    ne[i] = j;
}

匹配过程实战

有了 next 数组，匹配主串时就非常高效了。主串指针 i 永远向前，模式串指针 j 根据 next 数组回退。

for(int i = 1, j = ; i <= m; i++) {
    (j && S[i] != P[j + ]) j = ne[j];
    (S[i] == P[j + ]) j++;
    (j == n) {
        (, i - n); 
        j = ne[j]; 
    }
}

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online

#include<iostream>
using namespace std;
const int N = 1e4 + 10;
const int M = 1e5 + 10;
char S[M], P[N], ne[N];
int n, m;

int main(){
    cin >> n >> (P + 1) >> m >> (S + 1);
    
    // 1. 预处理 next 数组
    for(int i = 2, j = 0; i <= n; i++){
        while(j && P[i] != P[j + 1]) j = ne[j];
        if(P[i] == P[j + 1]) j++;
        ne[i] = j;
    }
    
    // 2. 匹配过程
    for(int i = 1, j = 0; i <= m; i++){
        while(j && S[i] != P[j + 1]) j = ne[j];
        if(S[i] == P[j + 1]) j++;
        if(j == n){
            printf("%d ", i - n);
            j = ne[j];
        }
    }
    return 0;
}

#include<iostream>
using namespace std;
const int N = 1e5 + 10;
char str[N];
int son[N][26], cnt[N], idx; // son[p][u] 表示 p 节点的 u 号儿子下标

// 插入操作
void insert(char str[]){
    int p = 0; // 从根节点开始
    for(int i = 0; str[i]; i++){
        int u = str[i] - 'a';
        if(!son[p][u]) son[p][u] = ++idx; // 不存在则创建新节点
        p = son[p][u];
    }
    cnt[p]++; // 标记该单词出现次数
}

// 查询操作
int query(char str[]){
    int p = 0;
    for(int i = 0; str[i]; i++){
        int u = str[i] - 'a';
        if(!son[p][u]) return 0; // 路径不存在
        p = son[p][u];
    }
    return cnt[p];
}

int main(){
    int n;
    scanf("%d", &n);
    while(n--){
        char op[2];
        scanf("%s%s", op, str);
        if(op[0] == 'I') insert(str);
        else printf("%d\n", query(str));
    }
    return 0;
}

#include<iostream>
using namespace std;
const int N = 1e5 + 10;
int p[N], n, m;

// 查找根节点，带路径压缩
int find(int x){
    if(p[x] != x) p[x] = find(p[x]);
    return p[x];
}

int main(){
    cin >> n >> m;
    // 初始化：每个点自成一个集合
    for(int i = 1; i <= n; i++) p[i] = i;
    
    while(m--){
        char op[2];
        int a, b;
        scanf("%s%d%d", op, &a, &b);
        if(op[0] == 'M') {
            p[find(a)] = find(b); // 合并：让 a 的根指向 b 的根
        } else {
            if(find(a) == find(b)) puts("Yes");
            else puts("No");
        }
    }
    return 0;
}

#include<iostream>
using namespace std;
const int N = 1e5 + 10;
int p[N], sizes[N], n, m;

int find(int x){
    if(p[x] != x) p[x] = find(p[x]);
    return p[x];
}

int main(){
    cin >> n >> m;
    for(int i = 1; i <= n; i++) {
        p[i] = i;
        sizes[i] = 1; // 初始大小为 1
    }
    
    while(m--){
        char op[5];
        int a, b;
        scanf("%s", op);
        if(op[0] == 'C') {
            scanf("%d%d", &a, &b);
            int rootA = find(a), rootB = find(b);
            if(rootA != rootB) {
                sizes[rootB] += sizes[rootA]; // 合并大小
                p[rootA] = rootB;
            }
        } else if(op[1] == '1') {
            scanf("%d%d", &a, &b);
            if(find(a) == find(b)) puts("Yes");
            else puts("No");
        } else {
            scanf("%d", &a);
            printf("%d\n", sizes[find(a)]);
        }
    }
    return 0;
}

数据结构核心：KMP 算法、Trie 树与并查集详解

数据结构核心：KMP 算法、Trie 树与并查集详解

KMP 算法

暴力匹配的瓶颈

核心原理与 next 数组

匹配过程实战

更多推荐文章

相关免费在线工具

Trie 树

并查集

基础操作

进阶：统计集合大小

更多推荐文章

相关免费在线工具

数据结构核心：KMP 算法、Trie 树与并查集详解

数据结构核心：KMP 算法、Trie 树与并查集详解

KMP 算法

暴力匹配的瓶颈

核心原理与 next 数组

匹配过程实战

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Trie 树

并查集

基础操作

进阶：统计集合大小

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具