大型语言模型结构分类详解

1. 大模型概述

为了从宏观上理解大型语言模型（Large Language Model, LLM）的功能结构，我们首先将其视为一个黑箱（Black Box）。在后续内容中，我们将逐步拆解其内部机制。从概念化角度理解，当前大语言模型的核心能力在于根据输入的自然语言描述（Prompt），生成符合需求的结果（Completion）。

形式化表达为： $$ \text{Input (Prompt)} \Rightarrow \text{Output (Completion)} $$

接下来，我们将从训练数据（Training Data）分析开始。语言模型本质上是对词元序列的概率分布建模： $$ \text{training data} \Rightarrow p(x_1, \dots, x_L) $$ 其中 $x_{1:L}$ 表示长度为 $L$ 的词元序列。

2. 上下文向量表征

作为理解模型架构的先决条件，关键发展是将词元序列映射为相应的上下文向量表征（Contextual Embedding）。

例如，对于句子 [the, mouse, ate, the, cheese]，每个词元的向量表示取决于其周围的上下文窗口。符号表示上，定义嵌入函数 $\phi: V^L \rightarrow \mathbb{R}^{d \times L}$，将词元序列 $x_{1:L}$ 映射为上下文相关的向量表示 $\phi(x_{1:L})$。

3. 大模型架构分类

基于 Transformer 结构的模型主要分为三类：编码端（Encoder-Only）、解码端（Decoder-Only）和编码 - 解码端（Encoder-Decoder）。

3.1 Encoder-Only 架构

定义与特点： 此类模型仅包含编码器部分，主要用于从输入数据提取特征或表示。它们通常采用双向注意力机制，能够同时关注输入序列的左侧和右侧上下文。

典型代表： BERT、RoBERTa。

适用任务：

文本分类
命名实体识别（NER）
情感分析
自然语言推理（NLI）

示例： 输入：[CLS], 他们，移动，而，强大 [SEP] 输出：正面情绪

优缺点：

优点： 对文本上下文信息有深刻理解，适合理解类任务。
缺点： 不能直接用于生成新序列，通常需要特定的预训练目标（如掩码语言建模 MLM）。

3.2 Decoder-Only 架构

定义与特点： 此类模型专注于从内部状态或先前生成的内容生成新的序列。通常用于自回归式预测任务，每个时刻的输出依赖于前面生成的所有内容。

典型代表： GPT 系列（GPT-3, GPT-4）、LLaMA、OPT、Bloom。

适用任务：

文本生成
自动摘要
对话系统
代码补全

示例： 输入：[CLS], 他们，移动，而 输出：强大

优缺点：

优点： 强大的序列生成能力，训练目标简单（最大似然估计）。
缺点： 只能单向依赖左侧上下文，难以捕捉长距离的双向依赖关系。

3.3 Encoder-Decoder 架构

定义与特点： 由编码器和解码器两部分组成。编码器负责将输入序列转换为压缩的中间表示，解码器基于此生成目标输出序列。

典型代表： T5、BART、GLM。

适用任务：

特性	Encoder-Only	Decoder-Only	Encoder-Decoder
主要功能	理解输入，生成抽象表示	根据历史生成新序列	编码输入后解码生成
上下文依赖	双向	单向（因果）	输入双向，输出单向
典型模型	BERT, RoBERTa	GPT, LLaMA	T5, BART
擅长任务	分类，抽取	生成，续写	翻译，摘要

大型语言模型结构分类详解