LLM 大语言模型 Tokenization 分词方法原理：WordPiece、BPE 与 BBPE

综述由AI生成详细解析了自然语言处理中大模型分词（Tokenization）的三种核心方法：WordPiece、Byte-Pair Encoding (BPE) 以及 Byte-level BPE (BBPE)。文章从词粒度、字符粒度和子词粒度三个角度对比了分词策略的优缺点，深入阐述了各算法的原理、构建词表的过程及互信息计算逻辑。通过 Python 代码示例展示了分词器的训练与合并步骤，并解释了 BBPE 如何解决未登录词（OOV）问题。最后总结了各方法在实际工程中的应用场景及工具选择，包括 SentencePiece 和 HuggingFace Transformers 的使用。

字节跳动发布于 2025/2/6更新于 2026/6/331 浏览

LLM 大语言模型 Tokenization 分词方法原理

Tokenization（分词）在自然语言处理 (NLP) 的任务中是最基本的一步，把文本内容处理为最小基本单元即 token(标记，令牌，词元)，用于后续的处理。如何把文本处理成 token 呢？有一系列的方法，基本思想是构建一个词表通过词表一一映射进行分词。但如何构建合适的词表呢？以下以分词粒度为角度进行介绍。

1. Word（词）粒度

在英文语系中，word（词）级别分词实现很简单，因为有天然的分隔符。在中文里面 word（词）粒度，需要一些分词工具比如 jieba。以下是中文和英文的例子：

中文句子：我喜欢看电影和读书。
分词结果：我 | 喜欢 | 看 | 电影 | 和 | 读书。
英文句子：I enjoy watching movies and reading books.
分词结果：I | enjoy | watching | movies | and | reading | books.

优点：

语义明确：以词为单位进行分词可以更好地保留每个词的语义，使得文本在后续处理中能够更准确地表达含义。
上下文理解：以词为粒度进行分词有助于保留词语之间的关联性和上下文信息，从而在语义分析和理解时能够更好地捕捉句子的意图。

缺点：

长尾效应和稀有词问题：词表可能变得巨大，包含很多不常见的词汇，增加存储和训练成本，稀有词的训练数据有限，难以获得准确的表示。
OOV（Out-of-Vocabulary）：词粒度分词模型只能使用词表中的词来进行处理，无法处理词表之外的词汇，这就是所谓的 OOV 问题。
形态关系和词缀关系：无法捕捉同一词的不同形态，也无法有效学习词缀在不同词汇之间的共通性，限制了模型的语言理解能力，比如 love 和 loves 在 word（词）粒度的词表中将会是两个词。

2. Char（字符）粒度

以字符为单位进行分词，即将文本拆分成一个个单独的字符作为最小基本单元。这种字符粒度的分词方法适用于多种语言，无论是英文、中文还是其他不同语言，都能够一致地使用字符粒度进行处理。

中文句子：我喜欢看电影和读书。
分词结果：我 | 喜 | 欢 | 看 | 电 | 影 | 和 | 读 | 书 | 。

英文句子：I enjoy watching movies and reading books.
分词结果：I |   | e | n | j | o | y |   | w | a | t | c | h | i | n | g |   | m | o | v | i | e | s |   | a | n | d |   | r | e | a | d | i | n | g |   | b | o | o | k | s | .

优点：

统一处理方式：字符粒度分词方法适用于不同语言，无需针对每种语言设计不同的分词规则或工具，具有通用性。
解决 OOV 问题：由于字符粒度分词可以处理任何字符，无需维护词表，因此可以很好地处理一些新创词汇、专有名词等问题。

缺点：

语义信息不明确：字符粒度分词无法直接表达词的语义，可能导致在一些语义分析任务中效果较差。
处理效率低：由于文本被拆分为字符，处理的粒度较小，增加后续处理的计算成本和时间。

3. Subword（子词）粒度

在很多情况下，既不希望将文本切分成单独的词（太大），也不想将其切分成单个字符（太小），而是希望得到介于词和字符之间的子词单元。这就引入了 subword（子词）粒度的分词方法。

在 BERT 时代，WordPiece 分词方法被广泛应用，比如 BERT、DistilBERT 等。WordPiece 分词方法是 subword（子词）粒度的一种方法。

3.1 WordPiece

WordPiece 核心思想是将单词拆分成多个前缀符号（比如 BERT 中的 ##）最小单元，再通过子词合并规则将最小单元进行合并为子词级别。例如对于单词"word"，拆分如下：

w ##o ##r ##d

然后通过合并规则进行合并，从而循环迭代构建出一个词表。以下是核心步骤：

特性	WordPiece	BPE	BBPE
最小粒度	字符 + 前缀 (##)	字符	字节 (Byte)
合并策略	基于互信息分数	基于频率最高	基于频率最高
OOV 问题	存在	存在 (受词表限制)	不存在 (理论全覆盖)
适用场景	BERT 系列	GPT, RoBERTa	GPT-2, Llama, Falcon
多语言支持	较好	好	最好

LLM 大语言模型 Tokenization 分词方法原理：WordPiece、BPE 与 BBPE

LLM 大语言模型 Tokenization 分词方法原理

1. Word（词）粒度

2. Char（字符）粒度

3. Subword（子词）粒度

3.1 WordPiece

更多推荐文章

相关免费在线工具

3.2 Byte-Pair Encoding (BPE)

3.3 Byte-level BPE(BBPE)

更多推荐文章

相关免费在线工具

LLM 大语言模型 Tokenization 分词方法原理：WordPiece、BPE 与 BBPE

LLM 大语言模型 Tokenization 分词方法原理

1. Word（词）粒度

2. Char（字符）粒度

3. Subword（子词）粒度

3.1 WordPiece

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 Byte-Pair Encoding (BPE)

3.3 Byte-level BPE(BBPE)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具