AI 数学的秘密花园:02.词怎么变成数字?(Tokenization:把一锅语言粥切成能下嘴的小积木)

AI 数学的秘密花园:02.词怎么变成数字?(Tokenization:把一锅语言粥切成能下嘴的小积木)

第2章:词怎么变成数字?(Tokenization:把一锅语言粥切成能下嘴的小积木)**

上一章咱们刚把AI数学比作搭乐高,是不是已经有点手痒想动手拼了?今天继续往前走,先解决一个最基础、最接地气的问题:那些五颜六色的乐高积木,到底是从哪儿来的?

在这里插入图片描述

(瞧这张厨房图,孩子做饭要切菜——把里面的菜换成“语言粥”,小机器人拿着菜刀笑眯眯地切,就完美了!)

AI不是天生就会说话,它其实是个超级挑食的数字星人——只吃数字,不吃汉字!

很多人以为AI直接读懂“你好,世界”,其实不然。它眼里只有0和1,像个只吃数字饭的小朋友,根本不认识那些弯弯曲曲的字。所以,第一步就是把人类的语言——那锅热腾腾、黏糊糊的语言粥——切成一块块大小能直接下嘴的小积木块。这道工序,就叫 Tokenization(分词 / Token化)。

我最爱这个比喻:一锅语言粥,切成乐高小积木。粥里混着中英文、标点、表情、网络热梗……乱七八糟热气腾腾。AI胃口小,吃不了整锅,得切成均匀小块才行!


为什么一定要切?

想象你端一整锅粥给AI,它直接傻眼:这玩意儿怎么吃啊?
必须切成小块,它才能一块一块慢慢嚼,找出里面的模式、统计规律和几何关系。

比如你敲一句:
“今天天气真不错,想出去浪~”

后台可能被切成:
[“今天”, “天气”, “真”, “不错”, “,”, “想”, “出去”, “浪”, “~”]

每个小积木再对应一个数字ID,比如 3456、7890……
这样AI就能用数字算

Read more

怎么样才能降低AIGC(亲测好用)

怎么样才能降低AIGC(亲测好用)

以下博文将教会你如何降低自己论文的AIGC率,简单易学,但是不包会。 方法一:手动让AI变得像人 首先先生成一个AIGC检测报告,反正又不要钱,只要进行漫长的等待: 然后,重点来了,你照着改就行了: 1.内容格式不对被判定AIGC(详细可见博主上篇文章) 看过博主的毕业论文撰写指南的同学都知道,一定要用大段大段的文字来让他生成,总之句子一定要有主语,以及不要把一个短句后前后加句号,因为格子达是以一个句号来查AGC的,这样小句子非常容易风险。 2.AI特别喜欢使用“首先,其次,另外,此外,因此”,而且用逗号隔开,这时候就要把这句话连接起来。 比如:因此,A1GC率的问题确实感到烦恼和困扰。 改成:所以AGC率的问题确实感到烦恼和困扰。 3.一般没有主语的句子,会被判定为AI写作!降A1的时候一定要把句子的主语加上。 比如:因此,AGC率的问题确实感到烦恼和困扰。 改成:所以AGC率的问题确实让我感到烦恼和困扰。 4.内容空洞,没有例子,干货 AI写的论文看起来好像有点道理,但实际上没有实质性内容,纯凑字数,

AMD显卡终极兼容性解决方案:llama.cpp快速部署完整指南

AMD显卡终极兼容性解决方案:llama.cpp快速部署完整指南 【免费下载链接】llama.cppPort of Facebook's LLaMA model in C/C++ 项目地址: https://gitcode.com/GitHub_Trending/ll/llama.cpp 想要在AMD显卡上流畅运行llama.cpp却总是遇到各种兼容性问题?本文为你提供一套完整的解决方案,从问题识别到性能优化,手把手教你解决AMD显卡与Vulkan后端的兼容性挑战。 为什么AMD显卡与llama.cpp存在兼容性问题 AMD显卡用户在使用llama.cpp时常常面临Vulkan初始化失败、模型加载卡顿、推理速度缓慢等问题。这些问题主要源于: * 驱动版本不匹配:不同世代的AMD显卡对Vulkan标准的支持程度存在差异 * 内存管理机制冲突:AMD的显存管理与llama.cpp的预期存在偏差 * 着色器编译异常:特定驱动版本在编译SPIR-V着色器时会产生无效代码 这张矩阵乘法示意图展示了llama.cpp在GPU上进行张量运算的核心原理,帮助你理解为什么兼容性问

ClawdBot真实案例:树莓派4上同时运行OCR/Whisper/vLLM,15用户并发无卡顿

ClawdBot真实案例:树莓派4上同时运行OCR/Whisper/vLLM,15用户并发无卡顿 1. 什么是ClawdBot?一个真正属于你的本地AI助手 ClawdBot不是另一个云端API包装器,也不是需要注册账号、绑定手机号的SaaS服务。它是一个你完全掌控的个人AI助手——所有计算发生在你自己的设备上,消息不上传、模型不调用第三方服务、对话历史默认不留存。你可以把它装在树莓派4里放在书桌角落,也可以部署在老旧笔记本上作为家庭AI中枢,甚至塞进一台闲置的NUC里变成办公室智能前台。 它的核心设计哲学很朴素:AI能力应该像电和水一样,成为你设备的底层能力,而不是需要反复登录的远程服务。当你在终端输入clawdbot devices list,看到的是真实连接到你本地机器的设备列表;当你执行clawdbot models list,列出的是正在你内存中运行的vLLM实例;当你在Telegram里发一条语音,转写、翻译、响应全过程都在你家里的树莓派上完成——没有数据离开你的局域网。 这种“本地即服务”的模式,带来三个实实在在的好处:一是隐私可控,聊天内容、图片、语音全部留在