3 月 24 日,国家数据局在新闻发布会上正式官宣,AI 领域核心术语 Token 的中文标准译名确定为「词元」。这标志着困扰行业多年的术语混乱局面有了官方定论。
作为大模型与 AI 交互的从业者,我们或许都经历过类似的困扰:同样是 Token,在区块链里是「代币」,网络安全中是「令牌」,而在大模型场景下,有人称「标记」,也有人直接使用英文。这种跨场景的理解偏差,往往影响沟通效率。
此次官方定调「词元」,不仅是翻译的统一,更是对 AI 核心逻辑的精准解读。国家数据局局长刘烈宏在发布会及中国发展高层论坛上正式使用这一译名,随后人民日报、央视新闻、中国计算机学会(CCF)等权威机构同步采用。
核心定义与背景
官方明确,词元(Token)是大模型处理信息的「最小信息单元」。它具备可计量、可定价、可交易的核心特征,也是大模型计费、算力消耗、调用量统计的标准单位。截至今年 3 月,我国日均词元调用量已突破 140 万亿,相比 2024 年初增长 1000 多倍。三个月内增长 40% 的数据,足以说明 AI 已深度融入日常生活,而词元正是这场智能革命的「基础粒子」。
为何选择「词元」?
在最终敲定前,Token 曾有过多个候选译名,如「模元」「智元」「代币」「令牌」等。「词元」之所以脱颖而出,在于它精准平衡了专业性与通俗性。
「词」字锚定了其核心属性——与语言、文本处理相关。无论是文字、语音还是多模态信息,最终都会被拆解为具备语义属性的基础单元。「词」字直观体现了这一特征。
「元」字则强调其本质——最小、不可再分的计算单元。就像图像的最小单元是「像素」,数据的最小单元是「字节」,词元就是 AI 理解和处理信息的「最小砖块」。
浙江大学人工智能学院教授柴春雷评价道,「词元」既避免了「令牌」「代币」的场景混淆,又比「标记」更精准,既保留了语言色彩,又体现了计算逻辑单元的严谨性。
通俗理解:三个比喻
如果觉得概念抽象,可以参考以下类比来辅助理解:
- 「大厨切菜」:把大模型比作超级大厨,输入的信息是食材,词元就是大厨眼中「一口能吃掉的最小单位」。AI 处理信息,就是先把「食材」切成一个个词元,再进行加工。
- 「乐高积木」:不管是文字、语音还是视频,AI 都会先把内容拆成一个个「词元积木」,再用这些积木拼接、推理、生成结果。每一次对话,都是在拼接这些「积木」。
- 「语言小颗粒」:词元就是 AI 读文字、说话的最小单位,类似人类说话的「音节」、写字的「笔画」。写周报、问菜谱、翻译邮件的背后,都是成千上万个词元在飞速流转。
产业话语权升级
一个术语的译名,值得国家级发布会来「盖章」吗?答案是肯定的。这场译名之争,本质上是 AI 产业话语权的争夺。
Token 早已不是单纯的技术术语,它已成为大模型 API 计费的核心单位、企业营收的统计口径、国家衡量 AI 产业规模的关键指标。就像工业时代的「用电量」,数字时代的「词元调用量」正在成为衡量社会智能化程度的新标尺。
此前我们借用英文 Token 描述这一概念,但作为全球最大的词元消费国和重要生产国,我们必须有自己的标准译名。这既是术语的规范化,更是产业自主的体现。「词元」的定调不偏向任何商业叙事,中性且稳定,既能适配当前的文本 AI 场景,也能兼容未来多模态 AI 的发展。
随着词元的规范化,围绕它的调用、分发与结算,一套新的价值体系正在加速形成。未来,我们可能会像交水电费一样,为自己消耗的词元买单,词元也将成为 AI 时代的刚需「能源」。
对于科技从业者和 AI 爱好者而言,以后在交流、写作、工作中,可以统一使用「词元」这一标准译名。从 Token 到词元,看似只是术语翻译的统一,实则是我国 AI 产业从高速发展迈向规范成熟的缩影。在这个由「词元」构筑的智能新世界里,我们才刚刚启程。

