大型语言模型结构分类详解
本文详细解析了大型语言模型的三种核心架构:仅编码器、仅解码器及编解码器结构。文章阐述了 Transformer 模型的基础组件,包括自注意力机制、多头注意力、位置编码及残差连接,并通过对比表格总结了不同架构的适用场景与优缺点。内容涵盖从理论定义到实际应用任务的全面介绍,帮助读者深入理解 LLM 的结构原理。

本文详细解析了大型语言模型的三种核心架构:仅编码器、仅解码器及编解码器结构。文章阐述了 Transformer 模型的基础组件,包括自注意力机制、多头注意力、位置编码及残差连接,并通过对比表格总结了不同架构的适用场景与优缺点。内容涵盖从理论定义到实际应用任务的全面介绍,帮助读者深入理解 LLM 的结构原理。

为了从宏观上理解大型语言模型(Large Language Model, LLM)的功能结构,我们首先将其视为一个黑箱(Black Box)。在后续内容中,我们将逐步拆解其内部机制。从概念化角度理解,当前大语言模型的核心能力在于根据输入的自然语言描述(Prompt),生成符合需求的结果(Completion)。
形式化表达为: $$ \text{Input (Prompt)} \Rightarrow \text{Output (Completion)} $$
接下来,我们将从训练数据(Training Data)分析开始。语言模型本质上是对词元序列的概率分布建模: $$ \text{training data} \Rightarrow p(x_1, \dots, x_L) $$ 其中 $x_{1:L}$ 表示长度为 $L$ 的词元序列。
作为理解模型架构的先决条件,关键发展是将词元序列映射为相应的上下文向量表征(Contextual Embedding)。
例如,对于句子 [the, mouse, ate, the, cheese],每个词元的向量表示取决于其周围的上下文窗口。符号表示上,定义嵌入函数 $\phi: V^L \rightarrow \mathbb{R}^{d \times L}$,将词元序列 $x_{1:L}$ 映射为上下文相关的向量表示 $\phi(x_{1:L})$。
基于 Transformer 结构的模型主要分为三类:编码端(Encoder-Only)、解码端(Decoder-Only)和编码 - 解码端(Encoder-Decoder)。
定义与特点: 此类模型仅包含编码器部分,主要用于从输入数据提取特征或表示。它们通常采用双向注意力机制,能够同时关注输入序列的左侧和右侧上下文。
典型代表: BERT、RoBERTa。
适用任务:
示例:
输入:[CLS], 他们,移动,而,强大 [SEP]
输出:正面情绪
优缺点:
定义与特点: 此类模型专注于从内部状态或先前生成的内容生成新的序列。通常用于自回归式预测任务,每个时刻的输出依赖于前面生成的所有内容。
典型代表: GPT 系列(GPT-3, GPT-4)、LLaMA、OPT、Bloom。
适用任务:
示例:
输入:[CLS], 他们,移动,而
输出:强大
优缺点:
定义与特点: 由编码器和解码器两部分组成。编码器负责将输入序列转换为压缩的中间表示,解码器基于此生成目标输出序列。
典型代表: T5、BART、GLM。
适用任务:
公式化表示: $$ x_{1:L} \Rightarrow \phi(x_{1:L}), p(y_{1:L} | \phi(x_{1:L})) $$
优缺点:
Transformer 是上述架构的基础,彻底改变了基于 RNN/LSTM 的序列建模范式。其核心创新点包括:
自注意力机制允许模型在处理每个单词时同时考虑到句子中的其他所有单词。计算方式如下: $$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$ 其中 $Q$(Query)、$K$(Key)、$V$(Value)分别来自输入向量的线性变换。缩放因子 $\sqrt{d_k}$ 防止点积过大导致 softmax 梯度消失。
将自注意力分解为多个并行'头部',每个头学习不同的子空间表示。最后拼接各头结果并经过线性变换: $$ \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O $$ 这增强了模型捕捉多种复杂依赖关系的能力。
由于 Transformer 不处理序列顺序,需引入位置信息。通常使用正弦和余弦函数生成位置向量,加到词嵌入上: $$ PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d}) $$ $$ PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d}) $$
| 特性 | Encoder-Only | Decoder-Only | Encoder-Decoder |
|---|---|---|---|
| 主要功能 | 理解输入,生成抽象表示 | 根据历史生成新序列 | 编码输入后解码生成 |
| 上下文依赖 | 双向 | 单向(因果) | 输入双向,输出单向 |
| 典型模型 | BERT, RoBERTa | GPT, LLaMA | T5, BART |
| 擅长任务 | 分类,抽取 | 生成,续写 | 翻译,摘要 |
选择合适的模型架构取决于具体任务需求。理解 Encoder、Decoder 及其组合的原理,是掌握大型语言模型技术的关键。随着技术发展,混合架构和 MoE(Mixture of Experts)等新型结构正在不断涌现,为 NLP 领域带来更多可能性。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online