AI 数学的秘密花园:02.词怎么变成数字?(Tokenization:把一锅语言粥切成能下嘴的小积木)

AI 数学的秘密花园:02.词怎么变成数字?(Tokenization:把一锅语言粥切成能下嘴的小积木)

第2章:词怎么变成数字?(Tokenization:把一锅语言粥切成能下嘴的小积木)**

上一章咱们刚把AI数学比作搭乐高,是不是已经有点手痒想动手拼了?今天继续往前走,先解决一个最基础、最接地气的问题:那些五颜六色的乐高积木,到底是从哪儿来的?

在这里插入图片描述

(瞧这张厨房图,孩子做饭要切菜——把里面的菜换成“语言粥”,小机器人拿着菜刀笑眯眯地切,就完美了!)

AI不是天生就会说话,它其实是个超级挑食的数字星人——只吃数字,不吃汉字!

很多人以为AI直接读懂“你好,世界”,其实不然。它眼里只有0和1,像个只吃数字饭的小朋友,根本不认识那些弯弯曲曲的字。所以,第一步就是把人类的语言——那锅热腾腾、黏糊糊的语言粥——切成一块块大小能直接下嘴的小积木块。这道工序,就叫 Tokenization(分词 / Token化)。

我最爱这个比喻:一锅语言粥,切成乐高小积木。粥里混着中英文、标点、表情、网络热梗……乱七八糟热气腾腾。AI胃口小,吃不了整锅,得切成均匀小块才行!


为什么一定要切?

想象你端一整锅粥给AI,它直接傻眼:这玩意儿怎么吃啊?
必须切成小块,它才能一块一块慢慢嚼,找出里面的模式、统计规律和几何关系。

比如你敲一句:
“今天天气真不错,想出去浪~”

后台可能被切成:
[“今天”, “天气”, “真”, “不错”, “,”, “想”, “出去”, “浪”, “~”]

每个小积木再对应一个数字ID,比如 3456、7890……
这样AI就能用数字算

Read more

【保姆级教程】从零到一:在飞书中接入 OpenClaw,打造你的专属 AI 助手

摘要:本文将手把手带你从零开始,完成 OpenClaw 的安装部署,并将其接入飞书,让你在飞书聊天窗口中直接与 AI 助手对话、下达指令。全文覆盖环境准备、一键安装、AI 模型配置、飞书机器人创建与对接、首次使用以及常见问题排查,适合所有技术水平的读者。 一、OpenClaw 是什么? OpenClaw(前身为 ClawdBot / Moltbot)是 2026 年迅速崛起的一个开源 AI 智能体项目。与 ChatGPT 等云端 AI 不同,OpenClaw 运行在你自己的本地环境(个人电脑或云服务器)中,核心理念是"将控制权交还给用户"。 简单来说,OpenClaw 是一个 AI 网关——它连接了你日常使用的通信工具(如飞书、钉钉、

Ocbot:一款开源的 AI 原生浏览器,到底有什么不一样?

Ocbot:一款开源的 AI 原生浏览器,到底有什么不一样?

快速摘要 Ocbot 是一款基于 Chromium 内核深度定制的 AI 原生浏览器,它将 AI 智能体(Agent)直接内嵌到浏览器内核中,让 AI 不再只是"辅助工具",而是能像人一样自主浏览网页、操作界面、提取数据。 它最大的亮点在于"自愈工作流"——当网站改版后,AI 能通过视觉理解自动修复执行路径,无需人工干预。同时,它支持 Gemini、GPT-4、Claude 等主流大模型自由切换,也可以接入本地私有化部署的大模型,数据完全由用户自己掌控。如果你对 AI 驱动浏览器自动化感兴趣,或者正在寻找比 OpenClaw 更轻量的替代方案,往下看有更详细的拆解。 —— 莫潇羽 一、为什么我们需要一款 AI 原生浏览器? 浏览器是我们日常使用频率最高的软件之一。

【AI大模型入门】04:可灵AI——一句话生成一段视频,国产视频AI天花板

【AI大模型入门】04:可灵AI——一句话生成一段视频,国产视频AI天花板

【AI大模型入门】04:可灵AI——一句话生成一段视频,国产视频AI天花板 📖 阅读时长:约9分钟 🎯 适合人群:想用AI生成视频的创作者、对AI视频感兴趣的新手 💡 你将学到:可灵AI是什么、能生成什么样的视频、怎么用、实际效果如何 一、视频生成AI,为什么这么火? 想象一下: 你打了一段话:“一只橘猫坐在窗台上,窗外下着雪,它回头看了看镜头,轻轻地打了个哈欠……” 几十秒后,一段真实感十足的视频就出现在你面前。 这不是科幻,这是2024年开始普及的AI视频生成技术。 而在国产AI视频领域,可灵AI(Kling AI)是当之无愧的天花板。 二、可灵AI 是什么? 可灵AI 是快手推出的AI视频生成大模型,2024年6月正式发布。 快手做短视频起家,积累了海量视频数据和顶尖的视频技术团队。这让可灵AI从一开始就有了很强的"视频基因"。 快手 AI 产品矩阵: ┌─────────────────────────────────────┐ │ 可灵AI ── 视频/

AutoGPT+Python:让AI智能体自动完成复杂任务的终极指南

AutoGPT+Python:让AI智能体自动完成复杂任务的终极指南

AutoGPT+Python:让AI智能体自动完成复杂任务的终极指南 引言:在人工智能迈向自主化的新阶段,AutoGPT作为基于大语言模型(LLM)的自主智能体代表,正掀起一场让AI自己思考、自主执行的技术革命。当它遇上Python的全栈生态与极致灵活性,开发者不再只是调用AI接口,而是能深度定制专属智能体——让AI听懂自然语言、拆解复杂目标、调用外部工具、联网检索信息、迭代优化结果,独立完成从市场调研、内容创作、代码开发到自动化运维的全流程任务。 本文从核心原理、本地部署、Python实战、插件扩展、生产优化五大维度,手把手带你从0到1搭建可落地、可监控、可进化的AI智能体系统,不管是AI爱好者、全栈开发者还是创业者,都能靠这份指南,掌握下一代人机协作的核心生产力。 一、先搞懂:AutoGPT到底是什么? 传统ChatGPT类模型是被动应答,你问一句它答一句,需要人工一步步引导;而AutoGPT是自主智能体,你只给它一个最终目标,它就能自己完成: * 任务拆解:把复杂目标拆成可执行子步骤 * 自主决策:判断下一步该做什么、调用什么工具 * 记忆管理:短期记忆存上下文