AI 数学的秘密花园：02.词怎么变成数字？（Tokenization：把一锅语言粥切成能下嘴的小积木）

优质文章学习记录

10 Apr 2026 — 2 min read

第2章：词怎么变成数字？（Tokenization：把一锅语言粥切成能下嘴的小积木）**

上一章咱们刚把AI数学比作搭乐高，是不是已经有点手痒想动手拼了？今天继续往前走，先解决一个最基础、最接地气的问题：那些五颜六色的乐高积木，到底是从哪儿来的？

（瞧这张厨房图，孩子做饭要切菜——把里面的菜换成“语言粥”，小机器人拿着菜刀笑眯眯地切，就完美了！）

AI不是天生就会说话，它其实是个超级挑食的数字星人——只吃数字，不吃汉字！

很多人以为AI直接读懂“你好，世界”，其实不然。它眼里只有0和1，像个只吃数字饭的小朋友，根本不认识那些弯弯曲曲的字。所以，第一步就是把人类的语言——那锅热腾腾、黏糊糊的语言粥——切成一块块大小能直接下嘴的小积木块。这道工序，就叫 Tokenization（分词 / Token化）。

我最爱这个比喻：一锅语言粥，切成乐高小积木。粥里混着中英文、标点、表情、网络热梗……乱七八糟热气腾腾。AI胃口小，吃不了整锅，得切成均匀小块才行！

为什么一定要切？

想象你端一整锅粥给AI，它直接傻眼：这玩意儿怎么吃啊？
必须切成小块，它才能一块一块慢慢嚼，找出里面的模式、统计规律和几何关系。

比如你敲一句：
“今天天气真不错，想出去浪～”

后台可能被切成：
[“今天”, “天气”, “真”, “不错”, “，”, “想”, “出去”, “浪”, “～”]

每个小积木再对应一个数字ID，比如 3456、7890……
这样AI就能用数字算

AI 数学的秘密花园：02.词怎么变成数字？（Tokenization：把一锅语言粥切成能下嘴的小积木）

优质文章学习记录

第2章：词怎么变成数字？（Tokenization：把一锅语言粥切成能下嘴的小积木）**

Read more

【AI实战】拒绝“伪”提效：从 Copilot 到 AI Agent，重塑全栈开发者的“核武器”

如何使用ChatDoctor：基于LLaMA的医疗AI助手打造智能问诊新体验

断点续训神器：Llama Factory云环境自动保存checkpoint实践

5分钟掌握llama-cpp-python：从零部署本地AI模型