算法学习集合之一:字符串匹配算法
KMP算法详解
1. 概述
KMP(Knuth-Morris-Pratt)算法是一种改进的字符串匹配算法,由Donald Knuth、Vernon Morris和John Pratt于1977年提出。它通过利用已经匹配的信息来减少模式串与主串的匹配次数,从而提高匹配效率。
2. 基本思想
KMP算法的核心在于getNext()函数,该函数用于计算模式串的局部匹配信息。具体来说,getNext()函数会生成一个数组nums[],其中每个元素表示在当前位置之前的最长相同前缀和后缀的长度。
3. getNext()函数
输入
- 模式串
ps
输出
- 长度为模式串长度的数组
nums[]
实现步骤
- 初始化
next[0] = -1,表示第一个字符之前没有相同前缀和后缀。 - 使用两个指针
j和k,分别表示当前处理的位置和上一个匹配失败的位置。 - 遍历模式串,对于每个位置:
- 如果
k == -1或者ps[j] == ps[k],则next[++j] = ++k。 - 否则,
k = next[k],继续向前查找。
- 如果
示例代码
function getNext(ps) { let p = ps; let next = []; next[0] = -1; let j = 0; let k = -1; while (j < p.length - 1) { if (k == -1 || p[j] == p[k]) { next[++j] = ++k; } else { k = next[k]; } } return next; } 4. KMP算法实现
输入
- 主串
ts - 模式串
ps
输出
- 匹配位置(如果匹配成功),否则返回 -1
实现步骤
- 初始化两个指针
i和j,分别表示主串和模式串的位置。 - 使用
getNext()函数计算模式串的局部匹配信息。 - 遍历主串,对于每个位置:
- 如果
j == -1或者ts[i] == ps[j],则i++和j++。 - 否则,
j = next[j],继续向前查找。
- 如果
示例代码
function KMP(ts, ps) { let t = ts; let p = ps; let i = 0; // 主串的位置 let j = 0; // 模式串的位置 let next = getNext(ps); while (i < t.length && j < p.length) { if (j == -1 || t[i] == p[j]) { //j==-1其实就是大胆假设的普通情况,i留在断点处后一位,j从0开始 i++; j++; } else { // 大胆假设的特殊情况,i留在匹配失败的断点不用移动 j = next[j]; // j跳转到getNext指定的位置 } } if (j == p.length) { return i - j; } else { return -1; } } 5. 标准说明
KMP算法的时间复杂度为O(m + n),其中m为主串长度,n为模式串长度。通过利用getNext()函数生成的局部匹配信息,KMP算法能够在模式串与主串匹配失败后,跳过一些不必要的比较,从而提高匹配效率。
6. 实际应用
KMP算法在实际应用中广泛应用于字符串搜索、DNA序列比对、文本编辑器中的查找功能等领域。通过理解和掌握KMP算法的实现原理和细节,可以有效地解决字符串匹配问题,提升程序性能。