Byte Pair Encoding (BPE) 分词算法详解与代码实现

综述由AI生成BPE 是一种基于频率统计的子词分词算法，通过迭代合并高频字符对构建词汇表。它解决了开放词汇问题，适用于多语言场景和深度学习模型。文章介绍了 BPE 的原理、训练与应用步骤、优缺点及变种，并提供了 Python 代码实现与详细解析。

laoliangsh发布于 2026/3/28更新于 2026/5/2832 浏览

Byte Pair Encoding (BPE) 算法详解

在自然语言处理（NLP）和深度学习领域，分词（tokenization）是一个至关重要的预处理步骤。传统的分词方法，如基于空格的分词或词典匹配，往往无法很好地处理开放词汇问题（open vocabulary problem），特别是在多语言场景或包含大量新词、罕见词的情况下。为了解决这一问题，Byte Pair Encoding（简称 BPE）算法应运而生。BPE 最初用于数据压缩，后来被引入到 NLP 中，成为现代语言模型（如 GPT、BART 和 BERT 的变体）中常用的分词技术。

一、BPE 的起源与基本思想

BPE 最早由 Philip Gage 在 1994 年提出，用于数据压缩领域。其核心思想是通过迭代合并频率最高的字节对（byte pair），将原始数据压缩为更紧凑的表示。2015 年，Sennrich 等人将 BPE 引入 NLP，用于神经机器翻译（Neural Machine Translation, NMT），并将其适配为一种子词级别（subword-level）的分词方法。

BPE 的基本思想可以用一句话概括：从字符级别开始，通过统计频率最高的字符对或子词对，逐步构建一个词汇表，用于表示文本中的单词或子词单元。 这种方法既能保留词的语义信息，又能灵活处理未见过的新词（out-of-vocabulary, OOV），在深度学习模型中表现出色。

二、BPE 的工作原理与实现步骤

BPE 的实现分为两个主要阶段：训练阶段（构建词汇表）和应用阶段（分词）。以下是详细步骤：

2.1 训练阶段：构建词汇表

初始化：
- 输入一个大规模的语料库（corpus），例如一堆句子。
- 对每个单词进行预分词，通常以字符为单位，并在每个单词末尾添加一个特殊标记（如 </w>），以区分词内字符和词间边界。例如，单词 'cat' 被初始化为 c a t </w>。

统计字符对频率：

遍历语料库，统计所有相邻字符对（或子词对）的出现频率。例如，在上面的例子中，可能会统计到：

l o: 8 次（5 次来自 "low"，3 次来自 "lower"）
o w: 8 次（5 次来自 "low"，3 次来自 "lower"）
w </w>: 9 次（5 次来自 "low"，4 次来自 "new"）

合并频率最高的字符对：
- 选择频率最高的字符对进行合并。例如，假设 l o 是频率最高的对，则将其合并为 lo，更新语料库中的表示：
```
"low": lo w </w>, 5 次
"lower": lo w e r </w>, 3 次
"new": n e w </w>, 4 次
```
迭代执行：
- 重复步骤 2 和 3，合并频率最高的字符对，直到达到预定的词汇表大小（vocabulary size，例如 10,000）或迭代次数上限。每次合并都会生成新的子词单元。例如，下一次可能合并 lo w 为 low，最终词汇表可能包含：
```
[l, o, w, e, r, n, </w>, lo, low, new, ...]
```
输出词汇表：
- 训练完成后，得到一个包含字符和子词的词汇表，用于后续的分词。

Byte Pair Encoding (BPE) 算法详解

一、BPE 的起源与基本思想

二、BPE 的工作原理与实现步骤

BPE 的实现分为两个主要阶段：训练阶段（构建词汇表）和应用阶段（分词）。以下是详细步骤：

2.1 训练阶段：构建词汇表

初始化：
- 输入一个大规模的语料库（corpus），例如一堆句子。
- 对每个单词进行预分词，通常以字符为单位，并在每个单词末尾添加一个特殊标记（如 </w>），以区分词内字符和词间边界。例如，单词 'cat' 被初始化为 c a t </w>。

统计字符对频率：

遍历语料库，统计所有相邻字符对（或子词对）的出现频率。例如，在上面的例子中，可能会统计到：

l o: 8 次（5 次来自 "low"，3 次来自 "lower"）
o w: 8 次（5 次来自 "low"，3 次来自 "lower"）
w </w>: 9 次（5 次来自 "low"，4 次来自 "new"）

合并频率最高的字符对：
- 选择频率最高的字符对进行合并。例如，假设 l o 是频率最高的对，则将其合并为 lo，更新语料库中的表示：
```
"low": lo w </w>, 5 次
"lower": lo w e r </w>, 3 次
"new": n e w </w>, 4 次
```
迭代执行：
- 重复步骤 2 和 3，合并频率最高的字符对，直到达到预定的词汇表大小（vocabulary size，例如 10,000）或迭代次数上限。每次合并都会生成新的子词单元。例如，下一次可能合并 lo w 为 low，最终词汇表可能包含：
```
[l, o, w, e, r, n, </w>, lo, low, new, ...]
```
输出词汇表：
- 训练完成后，得到一个包含字符和子词的词汇表，用于后续的分词。

# 导入所需库 from collections import defaultdict, Counter import re # BPE 训练函数 def train_bpe(corpus, vocab_size=1000): """ 训练 BPE 模型，生成词汇表 :param corpus: 输入语料库（单词列表） :param vocab_size: 目标词汇表大小 :return: 词汇表（子词集合） """ # 步骤 1：初始化单词为字符序列，添加词尾标记 </w> word_freq = Counter(corpus) vocab = set() word_splits = {} for word in word_freq: chars = list(word) + ['</w>'] word_splits[word] = chars vocab.update(chars) # 步骤 2：迭代合并频率最高的字符对 while len(vocab) < vocab_size: pair_freq = defaultdict(int) for word, freq in word_freq.items(): chars = word_splits[word] for i in range(len(chars)-1): pair = (chars[i], chars[i+1]) pair_freq[pair] += freq if not pair_freq: break # 找到频率最高的字符对 best_pair = max(pair_freq, key=pair_freq.get) new_token = ''.join(best_pair) # 步骤 3：更新所有单词的分割，合并 best_pair for word in word_freq: chars = word_splits[word] i = 0 new_chars = [] while i < len(chars): if i < len(chars)-1 and (chars[i], chars[i+1]) == best_pair: new_chars.append(new_token) i += 2 else: new_chars.append(chars[i]) i += 1 word_splits[word] = new_chars vocab.add(new_token) return vocab # BPE 分词函数 def apply_bpe(word, vocab): """ 对单个单词应用 BPE 分词 :param word: 输入单词 :param vocab: 训练好的词汇表 :return: 分词后的子词列表 """ # 步骤 1：初始化为字符序列并添加词尾标记 if not word: return [] chars = list(word) + ['</w>'] # 步骤 2：贪心合并，直到无法合并为止 while True: pairs = [(chars[i], chars[i+1]) for i in range(len(chars)-1)] mergeable = [''.join(pair) for pair in pairs if ''.join(pair) in vocab] if not mergeable: break best_merge = mergeable[0] new_chars = [] i = 0 while i < len(chars): if i < len(chars)-1 and ''.join(chars[i:i+2]) == best_merge: new_chars.append(best_merge) i += 2 else: new_chars.append(chars[i]) i += 1 chars = new_chars return chars # 测试代码 def main(): corpus = ["low","low","lower","lowest","new","newer"] print("原始语料库:", corpus) vocab_size = 10 vocab = train_bpe(corpus, vocab_size) print("训练得到的词汇表:", sorted(vocab)) test_words = ["low","lowest","newest"] for word in test_words: tokens = apply_bpe(word, vocab) print(f"单词 '{word}' 分词结果：{tokens}") if __name__ == "__main__": main()

Byte Pair Encoding (BPE) 分词算法详解与代码实现

Byte Pair Encoding (BPE) 算法详解

一、BPE 的起源与基本思想

二、BPE 的工作原理与实现步骤

2.1 训练阶段：构建词汇表

Byte Pair Encoding (BPE) 分词算法详解与代码实现

Byte Pair Encoding (BPE) 算法详解

一、BPE 的起源与基本思想

二、BPE 的工作原理与实现步骤

2.1 训练阶段：构建词汇表

更多推荐文章

相关免费在线工具

2.2 应用阶段：分词

三、BPE 的数学与统计基础

四、BPE 的优点与局限性

4.1 优点

4.2 局限性

五、在深度学习中的应用

六、BPE 的变种与改进

七、总结

代码实现

BPE 训练和应用代码

详细解释

1. 训练阶段 (`train_bpe` 函数)

2. 应用阶段 (`apply_bpe` 函数)

3. 测试代码 (`main` 函数)

注意事项与优化建议

defaultdict 函数解释

什么是 `defaultdict`？

在这段代码中的作用

为什么不用普通字典？

总结

更多推荐文章

相关免费在线工具

Byte Pair Encoding (BPE) 分词算法详解与代码实现

Byte Pair Encoding (BPE) 算法详解

一、BPE 的起源与基本思想

二、BPE 的工作原理与实现步骤

2.1 训练阶段：构建词汇表

Byte Pair Encoding (BPE) 分词算法详解与代码实现

Byte Pair Encoding (BPE) 算法详解

一、BPE 的起源与基本思想

二、BPE 的工作原理与实现步骤

2.1 训练阶段：构建词汇表

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 应用阶段：分词

三、BPE 的数学与统计基础

四、BPE 的优点与局限性

4.1 优点

4.2 局限性

五、在深度学习中的应用

六、BPE 的变种与改进

七、总结

代码实现

BPE 训练和应用代码

详细解释

1. 训练阶段 (train_bpe 函数)

2. 应用阶段 (apply_bpe 函数)

3. 测试代码 (main 函数)

注意事项与优化建议

defaultdict 函数解释

什么是 defaultdict？

在这段代码中的作用

为什么不用普通字典？

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1. 训练阶段 (`train_bpe` 函数)

2. 应用阶段 (`apply_bpe` 函数)

3. 测试代码 (`main` 函数)

什么是 `defaultdict`？