人工智能|大模型——模型——Token全网最详细讲解（国家数据局局长刘烈宏将其称为“词元”）

优质文章学习记录

06 Apr 2026 — 52 min read

Token（词元）是自然语言处理（NLP）与大语言模型（LLM）领域的核心基础单元，是将连续的自然语言文本映射为离散符号体系的核心载体 —— 其本质是人类语言与模型可处理数学空间的 “翻译层”，也是当前生成式 AI 技术体系、工程实现与商业生态的底层锚点。随着 Transformer 架构的普及与大模型技术的爆发，Token 的角色已从早期 NLP 的预处理中间单元，升级为大模型语义建模、推理计算与商业化计价的核心对象。

核心观点如下：

技术本质：Token 是自然语言的离散化符号表示，其核心作用是将非结构化文本转化为模型可计算的结构化输入 —— 子词切分算法（BPE、BBPE、WordPiece与Unigram以及SentencePiece（开源工具库），深入理解四大子词分词算法：BPE、BBPE、WordPiece与Unigram以及SentencePiece分词工具包_bpe分词-ZEEKLOG博客）的出现，解决了传统词级分词的未登录词（OOV）与序列长度膨胀问题，成为现代大模型的标准配置。
界定差异：海外更侧重 Token 的技术通用性与商业化计价属性，国内则针对中文语素特性强化了语义完整性约束，同时监管规则均将 Token 列为合规审计的核心计量单元。
应用价值：Token 既是大模型预训练、微调与推理的技术核心，也是生成式 AI 产业的商业化计价基础 —— 其切分效率直接决定了模型的训练成本、推理延迟与服务定价竞争力。
性能影响：Token 对大模型的训练算力、推理延迟、显存占用（尤其是 KV Cache）存在量化的非线性影响 —— 序列长度的增加会导致计算复杂度呈二次方增长，这是制约大模型长上下文能力的核心瓶颈。
当前挑战：现有 Token 体系存在语义破坏、跨语言编码效率失衡、对抗攻击脆弱性与计费不透明等问题，这些缺陷已成为大模型向更通用、更安全方向演进的关键障碍。

1. Token 的来源与定义演进

Token 的概念并非为 AI 专门设计，其起源可追溯至形式语言学与理论计算机科学，后续在计算语言学与大模型技术的迭代中，逐步完成了从 “抽象符号实例” 到 “核心计算单元” 的角色升级。

1.1 词源与形式语言学起源

Token 的概念最早可追溯至美国哲学家、逻辑学家查尔斯·桑德斯·皮尔士（Charles Sanders Peirce）在 1906 年提出的 Type-Token 区分。皮尔士在其符号学（Semiotics）理论体系中建立了这一对应关系：Type 指代抽象的符号形式（如英语中唯一的词"the"），而 Token 则指代该符号在具体时空语境中的单次出现实例（如某页书上二十个"the"中的每一个）。这一哲学层面的区分后来被结构主义语言学和计算语言学吸收，成为分析语言单位的核心工具，为自然语言的量化研究提供了重要的概念框架。

1.2 计算语言学中的应用

随着计算机技术与自然语言处理（NLP）技术的起步，Token 的概念被引入计算语言学领域，成为文本预处理的核心单元 —— 此时的 Tokenization（分词 / 词元化），被定义为将连续文本切分为离散语言单元的过程。

对于英文等拼音语言，由于单词之间存在天然的空格分隔符，早期 Tokenization 可以基于空格、标点符号、连字符等实现粗粒度的词级切分；而对于中文、日文等无天然分隔符的语素文字，早期则需要通过规则匹配（如基于词典的正向最大匹配法）、统计模型（如条件随机场 CRF、隐马尔可夫模型 HMM）完成词级切分。这一阶段的 Token 仍仅作为文本预处理的中间单元，核心目的是为后续的机器翻译、信息检索、文本分类等任务提供结构化输入，尚未成为神经网络模型建模的核心对象。

1.3 现代大模型语境下的 Token 概念

1.3 现代大模型语境下的 Token 概念

Token 的角色发生本质性转折，源于神经机器翻译与神经网络 NLP 的发展，尤其是子词切分算法的成熟与 Transformer 架构的诞生 —— 这两大技术的结合，彻底将 Token 从 "预处理工具" 升级为 "大模型的语义原子"。

1994 年提出的字节对编码（Byte Pair Encoding, BPE）算法原本用于文本数据压缩，其核心逻辑是通过迭代合并高频相邻字节对实现文本的高效压缩；2015 年该算法被首次引入 NLP 领域，用于解决神经机器翻译中的未登录词（OOV）问题 —— 即模型词表中未收录的词汇，传统词级分词会直接将其标记为 <unk>，而 BPE 可以通过子词组合来表示这些词汇，打破了传统词级分词的局限。随后，WordPiece、Unigram Language Model等子词切分算法相继提出，实现了词级、子词级、字符级粒度的平衡：既解决了 OOV 问题，又控制了序列长度与词表规模，同时提升了模型的泛化能力。

2017 年 Transformer 架构的提出，彻底奠定了 Token 在大模型中的核心地位：Transformer 的自注意力机制、自回归生成范式，均以离散的 Token 序列为核心建模对象；预训练的核心任务被定义为 "基于前文 Token 序列预测下一个 Token 的概率分布"—— 这一范式的本质，是让模型通过学习 Token 之间的统计关联与语义依赖，掌握人类语言的规律。此时的 Token，已不再是简单的预处理单元，而是大模型理解与生成语言的 "语义原子"，是连接人类自然语言与模型数学计算的核心桥梁。

2. 国内外对 Token 的界定与标准

随着大模型技术的全球化普及与监管体系的逐步完善，国内外对 Token 的界定形成了 “技术底层趋同、应用层适配差异、监管目标一致” 的特征 —— 技术层面均遵循子词级离散单元的核心定义，但在产业应用与合规要求上，分别适配了各自的语言特性与监管框架。

2.1 国外（国际）对 Token 的界定

国际范围内，对 Token 的界定形成了学术技术界、产业界、监管层三个维度的分层定义，且三者形成了相互衔接的标准体系。

2.1.1 技术定义

在学术与技术界，国际计算语言学协会（ACL）、电气与电子工程师协会（IEEE）等权威机构的学术文献与会议论文中，普遍将 Token 描述为：自然语言处理中，将连续文本序列映射为离散符号体系的基本可计算单元，其粒度可覆盖字符级、子词级、词级、短语级与句子级，核心作用是将非结构化的自然语言转化为模型可处理的结构化离散符号，同时兼顾语义完整性、计算效率与泛化能力。

这一描述体现了 Token 的几个关键特征（当前技术文献中的常见观点）：

离散性（可枚举的符号）；
可计算性（能被模型的数学运算处理）；
语义承载性（携带语言语义信息）。

2.1.2 产业定义

在产业界，以 OpenAI、Google DeepMind、Anthropic、Meta 等为代表的大模型厂商，在技术层面沿用了学术界的常见描述，同时将 Token 进一步用作大模型输入输出的基本计量单元与商业化计费的基本单位，形成了技术实践与商业实践的紧密关联：

技术层面：厂商基于自研的 Token 化算法与词表，将 Token 作为模型推理的基本计算单元，定义上下文窗口、推理性能等核心指标 —— 例如 GPT-4o 的 128K 上下文窗口，指的是模型设计能够处理的 128000 个 Token 的输入序列上限；
商业层面：将 Token 作为商业化服务的定价基础，区分输入 Token 与输出 Token 设置差异化定价 —— 例如 OpenAI GPT-4o 的输入 Token 定价约为 0.0025 美元 / 千 Token（即 2.5 美元 / 百万 Token），输出 Token 定价约为 0.01 美元 / 千 Token（即 10 美元 / 百万 Token），形成了当前生成式 AI 产业的主流计价模式。

2.1.3 监管定义

在监管层面，欧盟《AI 法案》、美国商务部与 FTC 相关监管文件、OECD《生成式 AI 政策框架》等国际监管规则中，提及 Token 作为生成式 AI 模型能力评估、合规审计、风险管控的参考计量单元：部分规则要求模型厂商基于 Token 数量披露模型预训练语料规模、上下文窗口能力等信息，同时将 Token 序列作为生成内容溯源、有害内容管控的技术载体之一。然而，目前尚无明确法规将 Token 确立为"法定计量属性"。例如欧盟《AI 法案》主要关注高风险 AI 系统的透明度、数据治理和安全要求，并未强制要求披露"每百万 Token 的有害内容占比"这一具体指标。

2.2 国内对 Token 的界定

国内对 Token 的界定，在技术底层与国际实践保持一致的同时，结合中文语言特性、产业发展现状与监管要求，形成了具有本土化特征的技术实践——核心差异集中在中文语素适配与合规管控的细化要求上。

2.2.1 技术定义

在学术与技术界，中文信息学会、中国计算机学会（CCF）等机构的学术文献与技术报告中，针对中文作为语素文字无天然分隔符的特性，在国际通用做法的基础上，进一步探索了中文语境下 Token 的优化方向：Token 应兼顾中文语素语义完整性与模型计算效率，其切分逻辑宜适配中文的构词规律、语义特征与语法结构，力求避免对中文常用词、成语、命名实体、专业术语的不合理切分，同时探索中文 Token 与汉字的换算关系、词表设计的本土化优化。例如，中文术语"人工智能"，较优的 Token 切分可能保留为一个完整单元或"人工"+"智能"两个子词，而非拆分为"人""工""智""能"四个单字 Token，这是中文 Token 化与英文的核心差异之一。

2.2.2 产业定义

在产业界，以百度文心一言、阿里通义千问、腾讯混元、智谱 AI、字节跳动豆包等为代表的国内大模型厂商，在技术层面沿用了子词级 Token 的核心定义，同时针对中文场景完成了深度优化：

技术层面：定制化设计中文优化的词表与 Token 化算法，提升中文文本的压缩率与切分合理性，降低中文处理的计算成本 —— 例如通义千问的词表对中文高频词汇（如成语、常用名词）做了专门优化，使中文的 Token 压缩率从原始 Llama 的 1.45 汉字 / Token 提升至 1.2 汉字 / Token 左右，计算效率提升约 17%；
商业层面：国内厂商通常采用Token 数量直接计价的方式（与国际接轨），部分厂商在用户体验层面提供"汉字数量估算"功能作为参考。例如智谱 AI 的glm-5模型，输入 Token定价为 0.3 美元/百万Token，输出Token定价为 2.55 美元/百万 Token，远低于海外同类模型的价格。

2.2.3 监管定义

在监管层面，国家网信办《生成式人工智能服务管理暂行办法》、国家标准《信息安全技术生成式人工智能服务安全基本要求》等国内监管文件中，提及 Token 可作为生成式 AI 服务安全管控、内容审核、模型能力描述的技术参考单位之一：要求服务提供者实现输入输出内容的全流程管控、上下文窗口的合规限制、用户行为的审计追溯，同时支持生成内容水印嵌入、溯源追踪等技术手段。然而，目前尚无明确法规将 Token 确立为"法定计量单位"或强制要求"Token 级过滤/标记"。例如《生成式人工智能服务管理暂行办法》主要关注数据安全、算法合规、内容安全等宏观要求，并未具体规定"Token 级过滤"或"Token 级溯源标记"的技术细节。

3. Token 的核心应用场景

Token 的应用场景覆盖了从底层技术研发到产业落地、商业生态、合规监管的全链条，是生成式 AI 全产业体系的核心基础单元 —— 其作用贯穿了大模型的 “训练 - 微调 - 推理 - 商业化 - 合规” 全生命周期。

3.1 自然语言处理与大模型基础研发

在底层技术研发场景中，Token 是大语言模型全生命周期研发的核心基础，其作用体现在预训练、微调、多模态建模等多个环节：

预训练阶段：Token 是预训练语料的核心处理单元，海量的文本语料需经过 Token 化处理转化为离散的 Token ID 序列，才能输入模型进行训练；而预训练的核心任务 —— 下一个 Token 预测（Next Token Prediction, NTP）、掩码语言模型（MLM）等，均完全围绕 Token 序列展开，预训练语料的规模、质量均以 Token 数量为核心计量指标 —— 例如 GPT-3 的预训练语料规模为 3000 亿 Token（300B），Llama 2 的预训练语料规模达到 2 万亿 Token（2T）
微调与对齐阶段：指令微调数据、人类反馈强化学习（RLHF）数据、Constitutional AI 数据，均需经过 Token 化处理后才能用于模型微调，Token 序列的质量直接决定了微调的效果 —— 例如高质量的指令 Token 序列，能够让模型更快对齐人类意图，提升指令遵循能力。
多模态大模型研发：Token 化技术实现了跨模态的统一建模，通过 VQ-VAE、ViT Patch 编码等技术，将图像、音频、视频等连续的模态信号转化为离散的多模态 Token 序列，与文本 Token 实现语义空间的对齐，使大模型具备跨模态的理解与生成能力 —— 当前主流的多模态大模型如 GPT-4o、Gemini、文心一言 4.0（Ernie Bot） 等，均基于多模态 Token 体系实现跨模态建模。

3.2 产业级 AI 服务与商业化计费

在产业落地与工程化场景中，Token 是生成式 AI 规模化应用的核心抓手，其作用体现在商业化计费、长文本处理、轻量化部署等多个关键环节：

商业化计费场景：Token 是全球生成式 AI 服务的通用计价单位，从基础模型厂商的 API 服务，到中间层的 MaaS 平台，再到应用层的 SaaS 产品，均以 Token 为基本计费单元 —— 例如 MiniMax 的 m2.5 模型，输入价格为 0.3 美元 / 百万 Token，输出价格为 1.1 美元 / 百万 Token；而海外 Claude Opus 4.6 的输出价格高达 25 美元 / 百万 Token，国内模型的价格优势显著。通过输入 Token 与输出 Token 的差异化定价，厂商构建了完整的商业闭环，Token 的计价标准直接决定了生成式 AI 服务的市场竞争力。
长文本处理与 RAG 场景：Token 数量是文档分块（Chunking）、上下文窗口管理的核心依据，通过控制每个文档块的 Token 数量，使其适配模型的上下文窗口限制，同时保证语义的完整性，是 RAG（检索增强生成）系统能够高效处理超长文档、实现精准检索与生成的核心基础 —— 例如在法律文书处理、金融财报分析、代码审计、学术论文解读等长文本场景中，合理的 Token 分块策略，能够让 RAG 系统的检索准确率提升 30% 以上。
边缘端与轻量化部署场景：通过 Token 稀疏化、动态 Token 剪枝、Token 压缩等技术，能够有效降低模型推理的计算量与显存占用，提升模型在端侧、边缘设备上的运行效率 —— 例如 SlimInfer 技术在 32K 长上下文场景下，通过动态 Token 剪枝实现了高达 2.53 倍的首 Token 生成速度提升，和 1.88 倍的端到端延迟降低，是大模型轻量化落地的核心优化方向。

3.3 代码生成与理解

在代码大模型场景中，针对代码语法结构优化的 Token 化技术，能够保证代码关键字、语法结构、变量名的合理切分，提升代码生成的语法正确性与逻辑完整性 —— 例如 GitHub Copilot 的后端模型基于 Codex 或 GPT-4 系列，对代码的 Token 化做了专门优化：将 "def""class" 等关键字保留为完整 Token，对变量名、函数名则根据驼峰命名法或下划线命名法进行合理切分。这种优化有助于提升代码生成质量，但具体效果因场景而异。这是代码大模型与通用文本大模型的核心差异之一，也是代码生成质量的关键保障。

3.4 安全合规与内容管控

在安全合规与监管场景中，Token 可作为生成式 AI 内容安全管控与合规审计的技术参考单元，其作用体现在内容安全审核、生成内容溯源、用户行为审计等多个环节：

内容安全审核场景：通过内容级的敏感词过滤、有害内容检测，能够在输入阶段拦截违规内容，在生成阶段通过输出概率调控限制有害内容的生成，实现输入输出内容的全流程管控 —— 例如对敏感词"病毒"，模型会在推理阶段通过安全对齐机制降低其出现的条件概率，有效防范有害内容的输出。Token 级过滤并非主流做法，因现代大模型采用子词切分，敏感词可能被拆分为多个子词，单纯 Token 级过滤易被绕过。
生成内容溯源场景：通过在模型输出层嵌入不可见的数字水印（如 SynthID、C2PA 等方案），能够实现生成内容的全链路溯源，满足监管部门对生成式 AI 内容的溯源要求 —— 例如通过微调特定输出 Token 的概率分布或采样策略，嵌入统计水印标识。然而，当前水印技术的鲁棒性仍面临挑战，内容修改可能导致水印失效。
用户行为审计场景：通过 API 调用量、请求频率、输出长度等指标的统计分析，能够实现对用户使用行为的合规管控，防范批量生成有害内容、滥用模型能力等违规行为 —— 例如对单用户单日请求量异常或输出内容模式异常的行为，系统会自动触发风险审计，排查是否存在违规使用情况。Token 消耗量可作为辅助参考指标，但非唯一或核心判定标准。

4. Token 的技术原理：如何工作？

Token 的完整工作机制分为两大核心阶段：第一阶段是文本的 Tokenization（词元化）处理，将非结构化的自然语言文本转化为模型可处理的离散 Token ID 序列；第二阶段是 Token 在大语言模型内部的计算与生成过程，基于 Token 序列完成语义建模与自回归生成。这两个阶段紧密衔接，共同构成了大模型理解与生成语言的核心逻辑。

4.1 Tokenization：文本到 Token ID 的转换

Tokenization 是 Token 工作的前置核心流程，其完整技术链路分为四个主要步骤，当前主流大模型通常遵循这一处理逻辑 —— 不同模型的差异，主要体现在子词切分算法的选择与词表的设计上。

4.1.1 文本规范化（Normalization）

文本规范化的核心目标是消除输入文本的噪声与不一致性，为后续切分提供标准化的输入。具体操作通常包括：

Unicode 规范化：采用 NFC/NFD 标准统一相同字符的不同编码形式 —— 例如将 "é" 的两种编码形式（U+00E9 和 U+0065 U+0301）统一为 U+00E9；
大小写转换：英文场景通常统一为小写，避免 "Apple" 和 "apple" 被视为不同的 Token；但部分现代模型（如 GPT-4、Llama 3）保留大小写敏感性，以区分专有名词与普通词汇；
全角半角转换：中文场景统一标点符号与字符格式，例如将全角逗号 "，" 转换为半角逗号 ","；
无效字符清洗：移除文本中的控制字符、特殊符号（如换行符、制表符）的处理因模型而异，部分模型将其保留为特殊 Token；
表情符号与 emoji 的处理：不同模型策略各异 —— 部分模型（如早期 BERT）将 emoji 转换为文本描述，部分模型（如 GPT-4、Llama 3）将其保留为独立 Token 或通过字节级 BPE 直接编码。

这些操作能够有效降低后续 Token 化的复杂度，但具体实现因模型和词表设计而异，并非绝对标准化。

4.1.2 预分词（Pre-tokenization）

预分词的核心目标是将文本切分为粗粒度的语义单元，避免子词切分破坏核心语义结构。不同语言的预分词策略存在显著差异：

英文等拼音语言：基于空格、标点符号、连字符等分隔符，将文本切分为单词级单元，同时完成缩写词的拆分 —— 例如将 "don't" 拆分为 "do" 与 "n't"，将 "state-of-the-art" 拆分为 "state""of""the""art"。
中文等无天然分隔符语言：预分词并非必需环节。现代中文大模型（如 GPT-4、Llama 3、通义千问）通常采用无预分词的端到端方案，直接使用 SentencePiece 或类似算法将文本视为 Unicode 字符流进行子词切分 —— 例如 "我爱北京天安门" 在 BPE/SentencePiece 处理下可能切分为 "我""爱""北京""天安门"或"我""爱""北""京""天""安""门"，具体取决于词表训练。传统基于词典的分词工具（如 jieba、THULAC）在神经网络时代已基本被淘汰，不再用于现代大模型的预分词。
预分词在中文 Token 化中的作用已显著弱化，现代大模型更倾向于通过端到端子词学习自动发现最优切分边界，而非依赖人工设计的预分词规则。

4.1.3 子词切分（Subword Segmentation）

子词切分是 Tokenization 的核心环节，基于预训练的子词切分算法，将粗粒度单元切分为最终的子词 Token。当前主流的算法分为四大类，其核心逻辑与适用场景存在明确差异：

算法名称	核心逻辑	代表实现/工具	优势	局限性
字节对编码（BPE）	初始化词表为所有单个字符，迭代统计语料中相邻字符对的共现频率，合并频率最高的字符对为新的 Token，重复迭代直至词表达到预设规模	OpenAI GPT 系列（TikToken）、原始 BPE 实现	实现简单、压缩率高、对高频词汇友好	完全基于统计规律，可能破坏低频词汇或专业术语的语义完整性；对中文等无天然分隔符语言的切分合理性较差
字节级 BPE（BBPE）	初始化词表为所有单个字节（共 256 个），在字节级别进行 BPE 合并，再将字节组合解码为 Unicode 字符	OpenAI GPT-4、GPT-4o（TikToken）、Llama 3、RoBERTa	真正无未登录词（OOV），可处理任意 Unicode 字符（包括 emoji、罕见符号、多语言字符）；跨语言通用性强	序列长度可能略长于字符级 BPE；对高频词汇的压缩率略低于字符级 BPE
WordPiece	与 BPE 类似，但合并依据从共现频率升级为最大化语料似然（基于语言模型概率），兼顾统计规律与语义关联性	Google BERT、DistilBERT、Electra	切分结果的语义合理性更强，对专业术语的处理更优	计算复杂度高于 BPE，训练成本更高
Unigram Language Model	初始化超大词表（通常包含所有字符与常见子词），基于概率语言模型计算每个 Token 对语料对数似然的贡献，迭代移除贡献最小的 Token，直至达到预设词表规模	Google 的 SentencePiece（算法实现）、T5、XLNet	能够输出多个候选切分结果，适配低资源语言场景；对语义的捕捉更精准	训练过程复杂，计算成本高

重要区分：算法 vs. 工具

上述三类是算法，而 SentencePiece 是开源工具库，并非独立算法。SentencePiece 实现了 BPE 和 Unigram 两种算法，支持无预分词的端到端处理，将输入文本视为完整的 Unicode 字符流，兼容所有语言。

代表模型与工具对应关系：

模型/系列	使用的工具	使用的算法	特点
OpenAI GPT 系列	TikToken	BBPE	定制优化，高性能
Google BERT	原生实现	WordPiece	专用于 BERT 系列
T5、XLNet	SentencePiece	Unigram	多语言适配
Meta Llama 系列	SentencePiece	BPE	多语言 BPE
DeepSeek 系列	SentencePiece	BPE	高效中文处理
通义千问系列	TikToken 风格 BPE	BBPE风格BPE	中文优化

当前趋势：BBPE 已成为大模型的事实标准，其字节级设计完美契合多语言、多模态（图像、音频字节化）的统一建模需求。

4.1.4 词表映射与特殊 Token 处理

词表映射与特殊 Token 处理，是 Tokenization 的最后一步，其核心目标是将子词 Token 转化为模型可识别的数字 ID，并为模型提供序列结构信息。具体操作包括：

词表映射：将切分后的子词 Token 映射为词表中对应的唯一整数 ID（Token ID）—— 词表是模型训练前预先构建的离散符号集合，包含所有可能的子词 Token 与特殊 Token。例如 Llama 2 的词表规模为 32000，Llama 3 扩展至 128000，GPT-4o 的词表规模据推测约为 100256 或更大。
特殊 Token 插入：插入模型所需的特殊 Token，包括序列开始符 <bos>、序列结束符 <eos>、填充符 <pad>、可选的未登录词符 <unk>、句子分隔符 <sep> 等 —— 这些特殊 Token 是模型识别序列结构、完成语义建模的核心标识。例如 <bos> 用于标记序列的开始，<eos> 用于标记序列的结束，<pad> 用于将不同长度的序列填充至统一长度。值得注意的是，现代 BBPE 模型（如 GPT-4、Llama 3）通常无需 <unk> Token，因其字节级设计可表示任意字符。

最终，这一阶段会输出标准化的 Token ID 序列，完成整个 Tokenization 处理流程。

4.2 大模型内部的 Token 处理流程

Token ID 序列首先会进入模型的嵌入层（Embedding Layer），每个 Token ID 会被映射为一个固定维度的稠密向量（Token Embedding）。该向量承载了 Token 的基础语义、语法与词性信息。

4.2.1 嵌入层（Embedding Layer）

Token ID 序列首先会进入模型的嵌入层（Embedding Layer），每个 Token ID 会被映射为一个固定维度的稠密向量（Token Embedding）—— 该向量承载了 Token 的基础语义、语法与词性信息，嵌入层的维度与词表规模直接决定了模型的基础参数量。例如 Llama 2 7B 模型的嵌入维度为 4096，词表规模为 32000，仅嵌入层的参数量就达到 32000×4096=1.31 亿，占模型总参数量的约 1.87%。

参数量计算（以 Llama 2 7B 为例）：

组件	计算公式	参数量	占总参数比例
输入嵌入层（Token Embedding）	V × d	32,000 × 4,096 = 1.31 亿	~1.87%
输出层（LM Head，非共享）	V × d	32,000 × 4,096 = 1.31 亿	~1.87%
嵌入相关总计	2 × V × d	2.62 亿	~3.75%
Transformer 层（32 层）	主要参数	~67 亿	~95%
总参数量		~70 亿	100%

注：部分模型（如 GPT-2）采用 Weight Tying 技术共享输入输出嵌入矩阵，可节省 1.87% 参数量。Llama 2 使用独立输出层，因此嵌入相关参数占比约 3.75%。

嵌入层的核心作用是将离散的 Token ID 转化为连续的语义向量 —— 这是模型能够理解 Token 语义的基础，也是后续所有计算的起点。

4.2.2 位置编码（Positional Encoding）

由于 Transformer 架构的自注意力机制不具备序列顺序感知能力（即无法区分 Token 在序列中的先后顺序），模型会为每个 Token 的嵌入向量添加位置编码（Positional Encoding），为每个 Token 注入其在序列中的位置信息，使模型能够识别 Token 的先后顺序与上下文依赖关系。

主流方案演进：

方案	提出时间	代表模型	核心特点
绝对位置编码（正弦/余弦）	2017（原始 Transformer）	BERT、GPT-2	预定义函数，无需学习参数
可学习绝对位置编码	2018	GPT、BERT（变体）	将位置作为可学习参数
旋转位置编码（RoPE）	2021	Llama 系列、PaLM、通义千问、DeepSeek	通过旋转矩阵注入相对位置信息
ALiBi	2022	MPT、BLOOM	基于距离偏置，外推性强
xPos / NTK-aware 扩展	2022-2023	Llama 2/3 长上下文扩展	改进 RoPE 的长序列外推能力

当前主流大模型（Llama 3、GPT-4、Claude 等）普遍采用 RoPE 及其变体，其核心原理是通过旋转操作将位置信息注入到 Token 的嵌入向量中：

二维情形：将 Token 嵌入向量视为复数，位置编码等价于对复数进行旋转 —— 旋转角度与 Token 在序列中的位置成正比，旋转频率遵循 指数衰减 策略；
高维扩展：将高维嵌入向量拆分为多个二维子空间，对每个子空间分别进行独立的旋转操作，整体变换为所有二维旋转的直和，对应分块对角正交矩阵。

RoPE 的核心优势：

相对位置感知：通过旋转矩阵的性质，模型能够捕捉 Token 之间的相对距离，而非仅依赖绝对位置
无需额外参数：位置信息通过数学变换注入，不增加模型参数量
长序列外推性：配合 NTK-aware 插值等技术，可扩展至 128K、1M 甚至更长上下文

频率设计：RoPE 的旋转角度遵循指数衰减策略（非原文的"频率衰减"）：高频维度（短波长）变化快，对应短距离的位置信息；低频维度（长波长）变化慢，对应长距离的位置信息。这与原始 Transformer 的正弦余弦位置编码在数学形式上相似，但物理意义不同 —— RoPE 通过旋转实现，原始方案通过直接相加实现。

4.2.3 注意力机制与上下文建模

带有位置信息的 Token 嵌入序列，会进入 Transformer 的核心模块 —— 解码器层（Decoder-only 架构），经过多头自注意力机制（Multi-Head Self-Attention）与前馈神经网络（FFN）的计算，生成融合全序列上下文信息的语义表示。

多头自注意力机制的核心逻辑：每个 Token 会与序列中其前的所有 Token（因果/单向注意力）或所有其他 Token（双向注意力）计算注意力权重，权重的大小代表两个 Token 之间的语义关联程度 —— 例如在 "我吃苹果" 这句话中，"吃" 与 "我""苹果" 的注意力权重会远高于与其他 Token 的权重；通过注意力加权求和，每个 Token 会生成融合了上下文信息的语义表示，解决了一词多义、上下文语义依赖等核心问题。

前馈神经网络（FFN）的核心作用：对自注意力机制输出的语义表示进行非线性变换，提取更深层的语义特征 —— 现代大模型普遍采用 SwiGLU 激活函数（如 Llama 2/3、PaLM、通义千问），而非早期的 ReLU 或 GELU，通过门控机制增强梯度流动和特征选择能力。

多层迭代优化：这一过程在 Transformer 的多层结构中重复迭代，例如 Llama 2 7B 包含 32 层 Transformer 解码器层，每层都会对 Token 的语义表示进行迭代优化，最终生成深度融合上下文信息的 Token 隐藏状态。

架构演进说明：

GPT/Llama 系列：仅使用 Decoder-only 架构，因果自注意力（单向）
BERT：使用 Encoder-only，双向自注意力
T5/BART：Encoder-Decoder 架构
当前主流大模型（GPT-4、Llama 3、Claude）均采用 Decoder-only 架构

4.2.4 输出层与自回归生成

在自回归生成阶段，模型会将当前位置 Token 的最终隐藏状态输入输出层（Language Modeling Head），通过线性层映射为与词表规模一致的 logits 向量，再经过 Softmax 激活函数（或采样策略）转化为词表中所有 Token 的概率分布 —— 选择概率最高的 Token（贪婪解码）或按概率分布采样（随机采样/Top-p/Top-k） 作为本次生成的输出 Token。

随后，生成的 Token 会被添加到输入序列的末尾，重复上述嵌入、位置编码、Transformer 层计算、概率分布预测的全过程，直至生成序列结束符 <eos> 或达到预设的最大输出长度，完成完整的文本生成过程。

解码策略演进：

策略	方法	特点	应用场景
贪婪解码（Greedy）	选择概率最高 Token	确定性、快速、易陷入重复	简单任务、测试
温度采样（Temperature）	P(xi)1/T，调节分布锐度	T<1 更确定，T>1 更多样	创意写作、对话
Top-k 采样	仅从概率最高的 k 个 Token 采样	控制多样性，避免低概率词	通用生成
Top-p（Nucleus）采样	从累积概率 ≥ p 的最小集合采样	动态调整候选集大小	当前主流
Beam Search	维护多个候选序列	质量高但计算量大	机器翻译、摘要

这一自回归生成逻辑，是当前大模型生成文本的核心范式 —— 其本质是模型基于前文 Token 序列，不断预测下一个最可能的 Token，最终形成连贯的文本输出。

5. Token 与大模型的关系

Token 与大语言模型之间存在紧密的共生关系：Token 是大模型处理自然语言的基础单元，没有 Token 化技术，大模型就无法直接处理原始文本；而大模型的发展也推动了 Token 技术体系的迭代升级，二者形成了深度关联、相互驱动的技术演进关系。

5.1 共生关系：Token 是大模型的 “燃料” 与 “原子”

从建模角度看，当前主流大语言模型的核心是一个基于离散 Token 序列的条件概率生成模型 —— 自回归大模型的核心目标，是学习自然语言文本在 Token 序列维度的联合概率分布，实现 "给定前文 Token 序列，预测下一个 Token 的概率" 的自回归生成。这一特点决定了，大模型的架构设计、训练流程、推理逻辑，主要围绕 Token 序列展开：

环节	Token 的作用
架构设计	Transformer 的自注意力机制计算 Token 之间的语义关联
训练流程	预训练、微调基于 Token 序列的预测任务
推理逻辑	自回归生成逐 Token 预测

然而，需要明确的是：Token 化并非大模型处理语言的唯一方式。多模态大模型（如GPT-4o）已直接处理像素、音频波形等连续信号；连续 Token 化（如扩散模型的连续噪声空间）和 无 Token 架构（如Mamba的状态空间模型）也在探索中。Token化是当前主流方案，但非终极形态。从这个意义上说，Token 是大模型的 "语义原子" —— 是连接人类自然语言与模型数学计算的核心桥梁之一，但技术演进可能带来更直接的表示方式。

5.2 词表（Vocabulary）作为模型的 “基础语义坐标系”

词表是大模型的 "基础语义坐标系"—— 词表的规模、语言覆盖范围、切分逻辑、垂类语料覆盖度，从根本上影响了模型的语义表达边界与能力上限：

维度	影响	实例
语言覆盖范围	词表的语言覆盖越全面，模型的多语言处理能力越强	Llama 3 词表覆盖 100+ 语言，中文压缩率提升至 ~1.23 汉字/Token（较 Llama 2 提升约 15%）
切分逻辑	切分逻辑贴合语义规律，提升建模能力与泛化性	中文优化词表保留 "北京""人工智能" 等高频组合
垂类语料覆盖度	专业术语覆盖充分，提升垂类场景表现	医疗/法律领域模型可扩展词表纳入专业术语

关键区分：通用词表 vs. 领域扩展

当前主流大模型（GPT-4、Llama 3）均采用 通用预训练 + 领域微调 范式，非直接在通用词表中添加垂类 Token。垂类能力提升主要通过：

预训练阶段：在通用语料中增加垂类文本比例
微调阶段：使用领域指令数据（如医疗问答对）
检索增强（RAG）：外挂领域知识库

直接在词表中添加垂类 Token（如 "CT 扫描"）并非常规做法，因：

通用词表（32K-128K）已覆盖绝大多数常用术语
专业术语可通过子词组合表示（如 "CT" + "扫描"）
动态扩展词表需重新训练嵌入层，成本极高

词表演进实例：

模型	词表规模	关键优化	实际效果
Llama 2	32,000	以英语为主	中文压缩率 ~1.45 汉字/Token
Llama 3	128,000	多语言扩展，中文优化	中文压缩率 ~1.23 汉字/Token（提升 ~15%，非 30%）
GPT-4	未公开	多语言、多模态	推测 100K+

关于 GPT-4o 的澄清：

GPT-4o 的 "多模态 Token 体系" 指 文本 + 视觉 Patch + 音频帧 的统一处理框架
视觉/音频并非传统意义上的 "Token"，而是连续信号的离散采样（VQ-VAE 编码）
这与文本 BPE Token 有本质差异，不能简单称为 "语义空间统一"

5.3 上下文窗口（Context Window）与长文本理解

Token 序列是大模型上下文建模的核心载体，而上下文窗口是模型上下文处理能力的直观体现 —— 上下文窗口的大小以 Token 数量为计量单位，例如：GPT-4o 支持 128K 上下文，Claude 3.5 Sonnet 支持 200K，Gemini 1.5 Pro 支持 1M-2M。

上下文窗口演进与应用场景：

窗口大小	代表模型	典型应用	技术挑战
4K-8K	早期 GPT-3、Llama 2	短文本问答、日常对话	基础能力，无特殊挑战
16K-32K	GPT-3.5 16K、Llama 2 长上下文版	长文档摘要、多轮对话	显存压力初现，需 KV Cache 优化
64K-128K	GPT-4o（128K）、Claude 3（200K）	法律文书、金融财报、代码审计	注意力计算 O(n²) 瓶颈，需稀疏注意力或近似算法
200K-1M+	Claude 3 Opus（200K）、Gemini 1.5 Pro（1M-2M）	整本书、大型代码库、多文档分析	长距离依赖建模、信息检索精度、计算成本

关键约束：窗口大小 ≠ 有效理解长度

上下文窗口的 物理容量 与模型的 有效理解长度 存在显著差距：

"Lost in the Middle" 现象：模型对窗口中间信息的检索能力显著弱于首尾
长距离依赖衰减：超过 32K 后，跨远距离的指代、推理能力急剧下降
实际有效长度：128K 窗口的实际有效利用通常仅20K-50K

Token 时序与自回归机制

Token 序列的时序结构是模型建模语言逻辑的基础 —— 自回归生成中，每个 Token 基于前文条件概率预测。但需注意：

因果约束是训练目标，非严格物理约束（推理时可通过投机采样等并行化）
长上下文的核心瓶颈：注意力计算 O(n²) 复杂度、KV Cache O(n) 显存增长

提示工程与 CoT

通过优化 prompt 的 Token 结构（如思维链 CoT、少样本示例）可引导复杂推理，但这与上下文窗口长度 无直接因果关系，更多依赖模型规模与训练质量。

6. Token 对大模型的影响（量化分析）

Token 对大模型的影响贯穿训练、推理与商业化全链条。以下是基于公开数据的量化分析，但需注意部分数据为估算或历史值。

6.1 对训练成本与算力的影响

Token 对大模型训练成本的影响，主要体现在预训练语料的 Token 数量与词表规模上 —— 二者直接决定了训练的算力消耗与成本。

6.1.1 训练算力的量化公式

大模型预训练算力常用简化估算：

FLOPs≈6×P×D

其中 P 为参数量，D 为预训练 Token 数。此为理论下限，实际成本因并行策略、硬件效率、故障恢复显著增加。

GPT-3 实例：

参数量 P = 175B，数据量 D = 300B
理论算力：6×175B×300B≈3.15×1023 FLOPs
实际训练成本估算：$460万-$1200万美元（含研发、实验、故障重跑）

关键变量：

因素	影响
并行策略	数据并行/模型并行/流水线并行的组合显著影响效率
硬件架构	A100/H100 较 V100 提升 2.5-8 倍效率
故障恢复	大规模训练故障率 10-30%，需预留重跑成本
实验迭代	超参搜索、消融实验占总成本 30-50%

6.1.2 词表规模的影响

词表规模主要影响嵌入层参数量（输入+输出层）。以 Llama 2 7B 为例：

配置	词表规模	总嵌入参数量	FP16 显存
原始	32,000	2.62 亿	~524 MB
扩展	64,000	5.24 亿	~1,048 MB

成本非线性关系：Token 压缩率提升 20%（如中文优化），实际训练成本降低 约 15-18%（非 20%），因嵌入层、优化器等固定成本不变。词表扩大带来的额外显存需纳入权衡。

6.2 对推理性能的影响：延迟与吞吐量

Token 对大模型推理性能的影响，主要体现在推理延迟与吞吐量上 —— 二者均与 Token 序列长度呈非线性关系，这是制约大模型长上下文能力的核心瓶颈。

6.2.1 推理延迟的量化关系

推理延迟分为首 Token 延迟（TTFT）与端到端延迟（E2E Latency），其量化关系如下：

首 Token 延迟（TTFT） ：指从用户发送请求到收到模型返回的第一个 Token 之间的时间，主要由输入序列的 Token 数量决定 —— 输入序列越长，TTFT 越高。Llama 2 7B 在 A100 上，4K 输入 TTFT ~100ms，32K 输入 TTFT ~2-4 秒（非 1000ms），增长约 20-40 倍。
端到端延迟（E2E Latency） ：指从用户发送请求到收到完整响应的时间，由 TTFT 与输出 Token 数量共同决定，其量化公式为：

延迟类型	定义	主要影响因素	与序列长度关系
TTFT	请求到首个输出 Token 的时间	输入序列的 Prefill 阶段计算	~O(n²)（注意力计算）
TPOT	每输出 Token 的生成时间	解码阶段的自回归生成	~O(1)（使用 KV Cache）
E2E Latency	请求到完整响应的时间	TTFT + (输出长度 × TPOT)	近似线性

端到端延迟≈TTFT+(输出 Token 数量×TPOT)

实测数据显示，输出 Token 数量翻倍，端到端延迟近似翻倍 —— 这是长文本生成任务（如论文写作、代码生成）的核心性能瓶颈。例如，生成 1000 字中文（~1500 Token）：TTFT ~0.5s + 1500×TPOT(~50ms) ≈ ~75 秒总生成时间。

长上下文瓶颈（>16K）：

KV Cache 显存占用：线性增长，32K 上下文可达 数十 GB
注意力计算：~O(n²) 复杂度，计算单元利用率骤降
显存带宽：成为主要瓶颈，而非计算

6.2.2 吞吐量的量化关系

吞吐量（Token/s）与 batch size、序列长度相关：

短序列（<4K）：吞吐率 ~1000-2000 Token/s（高并发）
长序列（32K+）：吞吐率 ~100-300 Token/s（显存受限）

技术	原理	效果	代表工作
KV Cache 量化（INT8/FP8）	降低缓存精度，减少显存	2× 吞吐提升	vLLM、TensorRT-LLM
PagedAttention	动态 KV Cache 管理，减少碎片	3-4× 并发提升	vLLM（2023）
FlashAttention-2/3	IO-aware 注意力算法，减少 HBM 访问	2-4× 加速	Dao et al.（2022-2024）
投机采样（Speculative Decoding）	小模型草稿 + 大模型验证，并行解码	2-3× 延迟降低	Leviathan et al.（2022）
滑动窗口/稀疏注意力	限制注意力范围，降复杂度至 O(n)	支持 1M+ 上下文	Longformer、BigBird

6.3 对显存占用的影响：KV Cache 的关键作用

Token 对大模型显存占用的影响，主要体现在 KV Cache（键值缓存）上 ——KV Cache 是推理过程中为了避免重复计算已生成 Token 的注意力，而缓存的中间状态，其显存占用与 Token 序列长度、批大小、模型层数等参数直接相关。

量化公式（MHA）： KV Cache≈2×层数×隐藏维度×批大小×序列长度×精度字节数
现代优化：GQA（Llama 3）、MLA（DeepSeek）通过减少 KV 头数，将 KV Cache 降低 75-90%，比精度量化更根本。
精度趋势：FP8（H100 原生）> INT8 > FP16/BF16。

6.4 对商业化定价的影响

压缩率：Llama 3（~1.23 汉字/Token）对比 Llama 2（~1.45）降低用户成本约 31%。

定价（2025年）：

模型	输入	输出	特点
GPT-4o	$2.5	$10	海外中端
GPT-4o-mini	$0.15	$0.6	海外经济型
DeepSeek-V3	~$0.07	~$0.27	国内极低
通义千问-Plus	~$0.5	~$2	国内主流

趋势：国内部分模型（DeepSeek）价格极低，但海外经济型模型（GPT-4o-mini）已接近，"远低于"优势缩小。

7. 当前 Token 存在的问题与挑战

尽管 Token 技术已相对成熟，但随着大模型向长上下文、多模态、高安全方向的演进，现有 Token 体系的底层缺陷、工程化瓶颈与安全合规风险逐步凸显，成为制约大模型能力升级、规模化落地与合规发展的核心障碍。

7.1 技术层面的深层缺陷

现有 Token 体系的技术缺陷，主要体现在语义粒度、静态切分、多模态对齐三个方面 —— 这些缺陷均源于当前 Token 化算法的 "统计驱动" 本质，而非 "语义驱动"。

7.1.1 语义粒度与跨语言差异

当前子词切分算法基于统计规律，存在语义粒度与跨语言差异问题：

问题	表现	技术现实
术语切分	"人工智能"切分为"人工"+"智能"	子词级表示有利于构词理解，非错误
粒度差异	常用词 vs 生僻词 Token 数不同	设计特性，保证零 OOV
跨语言压缩率	中文 ~1.2-1.5 Token/字，英文 ~0.75 Token/词	客观差异，Llama 3 等已通过多语言优化缩小差距

7.1.2 静态 Token 化与上下文建模效率瓶颈

当前 Token 化为静态切分，但动态优化研究已进展：

技术方向	代表工作	进展
Token 合并/剪枝	ToMe（Token Merging）	推理时动态减少 Token 数
多粒度表示	字符-子词-词多级编码	研究阶段

长上下文瓶颈的核心是注意力 O(n²) 复杂度，而非静态 Token 化本身。稀疏注意力、线性注意力（Mamba）、RAG 是主要解决路径。

7.1.3 多模态 Token 化的对齐

现代多模态模型已通过统一训练目标大幅改善对齐问题：

模型	统一策略	效果
GPT-4o	文本 + 视觉 + 音频统一神经网络	原生多模态
Gemini 1.5	多模态原生架构	跨模态理解显著提升

视觉/音频 Token 与文本 Token 的长度不匹配仍存在，但通过 Perceiver 架构、Q-Former 等已缓解。

7.2 工程与商业化层面的挑战

7.2.1 标准化与兼容性

方向	标准/工具	状态
Tokenizer 互操作	Hugging Face `tokenizers` 库	事实标准
模型转换	GGML/GGUF、ONNX	跨框架兼容
Token 计数统一	各厂商仍独立	无统一标准

现代 MaaS 平台已屏蔽 Token 化差异，开发者通常不直接处理 Token 化。

7.2.2 计费模式演进

问题	现状	新兴方案
位置成本差异	统一计费	投机采样降低尾部 Token 成本
跨语言不公平	中文 Token 数多，费用高	部分厂商探索汉字估算体验优化
标准不统一	各厂商 Token 数不同	按字符/汉字计价探索中

按 Token 计价仍是当前最可行方案，与计算成本直接挂钩。

7.3 安全与合规层面的风险

7.3.1 对抗攻击与安全绕过

实际存在的 Token 级攻击：

攻击类型	代表工作	原理	防御
Token 级对抗	同义词替换、字符级扰动	绕过关键词过滤	鲁棒对齐、输入净化
提示注入	"Ignore previous instructions"	劫持系统提示	系统提示隔离、输出过滤
GCG 优化攻击	Zou et al., 2023	梯度优化对抗后缀	对抗训练、检测模型

现代 RLFH/RLAIF 对齐模型对直接注入攻击的防御率 >90%。

7.3.2 隐私泄露风险

风险	技术方案	成熟度
上下文隐私泄露	上下文隔离、隐私数据脱敏	生产环境标准做法
训练数据记忆	差分隐私训练、数据过滤	部分厂商采用
Token 级隐私保护	同态加密、安全多方计算	研究阶段

7.3.3 水印技术进展

技术	鲁棒性	代表工作
统计水印（Soft）	低	Aaronson (OpenAI), Kirchenbauer et al.
半脆弱水印	中	多项研究进行中
多模态水印	中	Google SynthID、C2PA 标准

现代方案在 logits 分布、采样策略层嵌入，与 Token 选择解耦。

8. 总结与展望

Token 作为大模型的核心基础单元，其技术体系的演进直接决定了大模型的能力边界与产业落地速度 —— 从早期的词级分词，到子词切分算法的成熟，再到多模态 Token 体系的出现，Token 技术的每一次突破，都推动了大模型的性能提升与应用场景扩展。

8.1 核心结论

综上所述，Token 是大语言模型的 "语义原子"，是连接人类自然语言与模型数学计算的核心桥梁之一 —— 其对大模型的影响是全维度的：

层面	关键影响	说明
技术	切分算法、词表设计决定语义理解、长文本、多模态能力	BBPE 实现零 OOV，多语言优化缩小跨语言差距
性能	Token 数量、压缩率决定训练成本、推理延迟、显存占用	序列长度增加导致计算复杂度 O(n²) 增长，注意力机制是长上下文瓶颈
商业化	计价标准影响市场竞争力	国内部分模型（DeepSeek）价格极低，但海外经济型模型（GPT-4o-mini）差距已缩小
合规	Token 可作为安全检测与溯源的参考单元	但非法定核心载体，内容级安全管控更为主流

当前 Token 体系存在的语义粒度差异、静态token化、多模态对齐等问题，已成为大模型演进的关键挑战 —— 这些问题的本质，是 "统计驱动" 与 "语义驱动" 的权衡，而非不可调和的矛盾。

8.2 未来展望

未来 Token 技术的演进方向，将围绕 "语义感知、动态适配、跨模态统一、安全可信" 四个核心目标展开：

方向	技术路径	现实进展
语义感知 Token 化	动态、上下文感知的切分	ToMe 等 Token 合并/剪枝技术已应用；完全语义驱动仍处研究阶段
跨语言统一	多语言统一词表	Llama 3、GPT-4o 已实现 100+ 语言覆盖，压缩率差距显著缩小
动态稀疏化	根据重要性调整 Token 粒度	长文本推理中 RAG、稀疏注意力已实用化；动态粗细粒度探索中
多模态统一	文本、图像、音频统一表示	GPT-4o、Gemini 已实现原生多模态统一架构，非简单 Token 拼接
安全可信	差分隐私、对抗训练、鲁棒水印	C2PA 标准、SynthID 等多模态水印已部署；Token 级专属方案较少

关键认知更新：

"语义原子"非终极形态：Mamba 等状态空间模型探索无 Token 架构，扩散模型使用连续隐空间
"唯一桥梁"已过时：多模态时代，Token 是核心桥梁之一，但像素、波形等原始信号可直接输入
长上下文瓶颈在注意力：O(n²) 复杂度是根本约束，动态 Token 化是缓解手段而非终极方案

这些技术的持续演进，将推动大模型向更通用、更安全、更高效的方向发展，为生成式 AI 产业的规模化落地提供技术保障。