大型语言模型结构分类详解
1. 大模型概述
为了从宏观上理解大型语言模型(Large Language Model, LLM)的功能结构,我们首先将其视为一个黑箱(Black Box)。在后续内容中,我们将逐步拆解其内部机制。从概念化角度理解,当前大语言模型的核心能力在于根据输入的自然语言描述(Prompt),生成符合需求的结果(Completion)。
形式化表达为: $$ \text{Input (Prompt)} \Rightarrow \text{Output (Completion)} $$
接下来,我们将从训练数据(Training Data)分析开始。语言模型本质上是对词元序列的概率分布建模: $$ \text{training data} \Rightarrow p(x_1, \dots, x_L) $$ 其中 $x_{1:L}$ 表示长度为 $L$ 的词元序列。
2. 上下文向量表征
作为理解模型架构的先决条件,关键发展是将词元序列映射为相应的上下文向量表征(Contextual Embedding)。
例如,对于句子 [the, mouse, ate, the, cheese],每个词元的向量表示取决于其周围的上下文窗口。符号表示上,定义嵌入函数 $\phi: V^L \rightarrow \mathbb{R}^{d \times L}$,将词元序列 $x_{1:L}$ 映射为上下文相关的向量表示 $\phi(x_{1:L})$。
3. 大模型架构分类
基于 Transformer 结构的模型主要分为三类:编码端(Encoder-Only)、解码端(Decoder-Only)和编码 - 解码端(Encoder-Decoder)。
3.1 Encoder-Only 架构
定义与特点: 此类模型仅包含编码器部分,主要用于从输入数据提取特征或表示。它们通常采用双向注意力机制,能够同时关注输入序列的左侧和右侧上下文。
典型代表: BERT、RoBERTa。
适用任务:
- 文本分类
- 命名实体识别(NER)
- 情感分析
- 自然语言推理(NLI)
示例:
输入:[CLS], 他们,移动,而,强大 [SEP]
输出:正面情绪
优缺点:
- 优点: 对文本上下文信息有深刻理解,适合理解类任务。
- 缺点: 不能直接用于生成新序列,通常需要特定的预训练目标(如掩码语言建模 MLM)。
3.2 Decoder-Only 架构
定义与特点: 此类模型专注于从内部状态或先前生成的内容生成新的序列。通常用于自回归式预测任务,每个时刻的输出依赖于前面生成的所有内容。
典型代表: GPT 系列(GPT-3, GPT-4)、LLaMA、OPT、Bloom。
适用任务:
- 文本生成
- 自动摘要
- 对话系统
- 代码补全
示例:
输入:[CLS], 他们,移动,而
输出:强大
优缺点:
- 优点: 强大的序列生成能力,训练目标简单(最大似然估计)。
- 缺点: 只能单向依赖左侧上下文,难以捕捉长距离的双向依赖关系。
3.3 Encoder-Decoder 架构
定义与特点: 由编码器和解码器两部分组成。编码器负责将输入序列转换为压缩的中间表示,解码器基于此生成目标输出序列。
典型代表: T5、BART、GLM。
适用任务:


