AI 数学基础：Tokenization 如何将文本转换为数字

第 2 章：词怎么变成数字？（Tokenization）

AI 不是天生就会说话，它其实是个超级挑食的数字星人——只吃数字，不吃汉字！

很多人以为 AI 直接读懂'你好，世界'，其实不然。它眼里只有 0 和 1，像个只吃数字饭的小朋友，根本不认识那些弯弯曲曲的字。所以，第一步就是把人类的语言——那锅热腾腾、黏糊糊的语言粥——切成一块块大小能直接下嘴的小积木块。这道工序，就叫 Tokenization（分词 / Token 化）。

我最爱这个比喻：一锅语言粥，切成乐高小积木。粥里混着中英文、标点、表情、网络热梗……乱七八糟热气腾腾。AI 胃口小，吃不了整锅，得切成均匀小块才行！

为什么一定要切？

想象你端一整锅粥给 AI，它直接傻眼：这玩意儿怎么吃啊？
必须切成小块，它才能一块一块慢慢嚼，找出里面的模式、统计规律和几何关系。

比如你敲一句：
'今天天气真不错，想出去浪～'

后台可能被切成：
["今天", "天气", "真", "不错", "，", "想", "出去", "浪", "～"]

每个小积木再对应一个数字 ID，比如 3456、7890……
这样 AI 就能用数字算

AI 数学基础：Tokenization 如何将文本转换为数字

第 2 章：词怎么变成数字？（Tokenization）

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

AI 数学基础：Tokenization 如何将文本转换为数字

第 2 章：词怎么变成数字？（Tokenization）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具