主流大模型为何普遍采用 Decoder-only 架构?
在大语言模型(LLM)的发展过程中,架构选择至关重要。目前主流模型如 GPT 系列、Llama 系列均采用 Decoder-only 架构。本文将深入探讨其背后的技术原因,对比 Encoder-Decoder 及 Encoder-only 架构的差异。
1. 自回归生成机制的适配性
Decoder-only 架构天然支持自回归(Autoregressive)生成。在文本生成任务中,模型需要基于已生成的内容预测下一个 token。这种单向因果掩码(Causal Mask)确保了每个位置只能关注前面的信息,符合人类语言生成的时序逻辑。
优势:
- 连贯性与上下文一致性:自回归生成方式确保每个新生成的词汇都能考虑到前面的上下文,从而保证输出文本的连贯性和上下文一致性。
- 高效稳定的文本生成:通过逐个词汇生成的方式,Decoder-only 模型避免了一次性预测整个序列的需求,这不仅使生成过程更为稳定,同时也提高了效率。
2. 注意力机制与建模能力
Decoder-only 架构使用因果注意力(Causal Attention),即下三角矩阵形式的注意力掩码。这与双向注意力(Bidirectional Attention)有本质区别。
- 满秩特性:苏剑林等研究者指出,双向 attention 的注意力矩阵容易退化为低秩状态,而 causal attention 的注意力矩阵是下三角矩阵,必然是满秩的,因此建模能力更强。
- 隐式位置编码:causal attention 具有隐式的位置编码功能,打破了 Transformer 的位置不变性。带有双向 attention 的模型,如果不带位置编码,部分 token 可以对换也不改变表示,对语序的区分能力天生较弱。
3. 推理效率与显存优化
Decoder-only 架构在推理阶段具有显著优势,特别是在大规模参数场景下。
- 流式生成:由于不需要编码输入序列再解码输出,它可以直接进行流式生成,用户无需等待完整响应即可看到部分内容。
- KV Cache 复用:配合 KV Cache 技术,可以复用之前计算出的键值对,大幅减少重复计算,降低延迟并节省显存。相比之下,Encoder-Decoder 架构在长文本生成时往往需要重新计算或处理更复杂的注意力交互。
- 简化架构设计:仅包含一个 Decoder 模块,这种精简的设计使得模型在实现和调试方面更加简便,也减少了硬件部署的复杂度。
4. 预训练与微调的统一性
Decoder-only 模型通常采用'下一词预测'(Next Token Prediction)作为预训练目标。这一目标简单且通用,使得模型能够学习通用的语言表示。
- 高效的预训练:自回归预训练策略在捕获语言模式及上下文信息方面表现出色,有助于提高模型在生成任务上的性能。
- 灵活的微调:在针对特定下游任务进行微调时,Decoder-only 模型能够通过简便的任务适应策略迅速调整,以满足具体任务的需求。例如通过指令微调(Instruction Tuning),同一套架构即可适应对话、摘要、代码生成等多种任务。
- 预训练任务难度:纯粹的 decoder-only 架构 + next token prediction 预训练每个位置所能接触的信息比其他架构少,要预测下一个 token 难度更高。当模型足够大,数据足够多的时候,decoder-only 模型学习通用表征的上限更高。
5. 上下文学习与泛化能力
Decoder-only 架构在少样本学习(Few-Shot Learning)方面表现优异。
- 隐式微调:Prompt 中的示例信息可以视为对模型参数的隐式微调。decoder-only 的架构相比 encoder-decoder 在 in-context learning 上会更有优势,因为 prompt 可以更加直接地作用于 decoder 每一层的参数,微调的信号更强。
- 高度灵活:该架构可以灵活应对不同长度和复杂程度的文本生成任务,展现出更强的适应能力。
6. 计算资源优化与扩展性
在大规模模型训练过程中,高效利用计算资源至关重要。


