大模型相关技术综述

综述了大模型技术的发展历程与核心架构。内容涵盖从 Word2Vec、ELMo 到 Transformer 的演进，详细解析了自注意力机制、位置编码及 Encoder-Decoder 结构。介绍了 BERT、GPT、T5 等主流模型系列及其变体，并探讨了多模态生成模型如 VAE、GAN、Flow 和 Diffusion 的核心概念与应用差异。文章梳理了国内外大模型发展现状及关键技术点，为理解大模型技术体系提供参考。

筑梦师发布于 2025/2/7更新于 2026/7/1040 浏览

多模态大模型与大模型训练语料持续迭代

大模型演进历史

预训练模型

Word2Vec

Word2Vec 属于 NLP 领域无监督学习和比较学习的先驱。精髓在于可以用不带标签的文本语料输入神经网络模型，就可以学习到每个词的带语义的词向量表示。它背后原理其实就是人类讲出来的话已经是带有信息量的，只要通过神经网络对语料批量处理词和上下文映射关系，就能学习到人类对某个词的上下文语意。

用一个向量来表示每个词汇，语义比较相近的词汇，它们的向量会比较接近。

词嵌入技术过去经常用到，但是它有一个很大的缺点。就是一词多义问题。每个词只有唯一的向量表示，所以一词多义的话，词意思就是训练语料里这个词出现最多词上下文的表示，会把其它次要上下文语意直接忘记。

ELMo

Word Embedding 本质上是个静态的方式，即训练好之后每个单词的表达就固定住了，以后使用的时候，不论新句子上下文单词是什么，这个单词的 Word Embedding 不会跟着上下文场景的变化而改变，所以对于比如 Bank 这个词，它事先学好的 Word Embedding 中混合了几种语义，在应用中来了个新句子，即使从上下文中（比如句子包含 money 等词）明显可以看出它代表的是'银行'的含义，但是对应的 Word Embedding 内容也不会变，它还是混合了多种语义。

ELMo 的本质思想是：先用语言模型学好一个单词的 Word Embedding，此时多义词无法区分，不过这没关系。在实际使用 Word Embedding 的时候，单词已经具备了特定的上下文了，这个时候我可以根据上下文单词的语义去调整单词的 Word Embedding 表示，这样经过调整后的 Word Embedding 更能表达在这个上下文中的具体含义，自然也就解决了多义词的问题了。所以 ELMo 本身是个根据当前上下文对 Word Embedding 动态调整的思路。

ELMo 采用了典型的两阶段过程，第一个阶段是利用语言模型进行预训练；第二个阶段是在做下游任务时，从预训练网络中提取对应单词的网络各层的 Word Embedding 作为新特征补充到下游任务中。

ELMo 的网络结构采用了双层双向 LSTM，目前语言模型训练的任务目标是根据单词 Wi 的上下文去正确预测单词 Wi，Wi 之前的单词序列 Context-before 称为上文，之后的单词序列 Context-after 称为下文。图中左端的前向双层 LSTM 代表正方向编码器，输入的是从左到右顺序的除了预测单词外 Wi 的上文 Context-before 和下文 Context-after；右端的逆向双层 LSTM 代表反方向编码器，输入的是从右到左的逆序的句子上文和下文；每个编码器的深度都是两层 LSTM 叠加，而每一层的正向和逆向单词编码会拼接到一起。

预训练好网络结构后，如何给下游任务使用呢？

下图展示了下游任务的使用过程，比如我们的下游任务仍然是 QA 问题，此时对于问句 X，我们可以先将句子 X 作为预训练好的 ELMo 网络的输入，这样句子 X 中每个单词在 ELMo 网络中都能获得对应的三个 Embedding（单词的 Embedding，句法层面的 Embedding，语义层面的 Embedding），之后给予这三个 Embedding 中的每一个 Embedding 一个权重 a，这个权重可以学习得来，根据各自权重累加求和，将三个 Embedding 整合成一个。然后将整合后的这个 Embedding 作为 X 句在自己任务的那个网络结构中对应单词的输入，以此作为补充的新特征给下游任务使用。对于上图所示下游任务 QA 中的回答句子 Y 来说也是如此处理。因为 ELMo 给下游提供的是每个单词的特征形式，所以这一类预训练的方法被称为"Feature-based Pre-Training"。

ELMo 也存在一些缺点：

特征抽取器选择方面，ELMo 使用了 LSTM 而不是 Transformer；Transformer 提取特征的能力是要远强于 LSTM 的。
ELMo 采取双向拼接这种融合特征的能力可能比 BERT 一体化的融合特征方式弱，但是，这只是一种从道理推断产生的怀疑，目前并没有具体实验说明这一点。

Contextualized Word Embedding 技术是动态的 embedding 技术，word2vec 只会根据训练语料高频出现上下文对每一个词 embedding 做取舍；而 Contextualized Word Embedding 则是在 pretrain 预训练阶段会把每个词的所有可能语意都记入下来，在 finetune 具体任务时候，会根据输入文本的上下文信息激活 pretrain 时候的不同语意权重来表示更适合当前这个多义词的语意。

Transformer

传统 encode-decode 模型的前步依赖，无法并行化计算，影响运算速度问题。
如何通过位置向量解决句子有序性。
为何要多头——解决自注意力机制单头过度关心自己问题。
Decoder 部分训练时候如何加速——Attention MASK+Decode 输入。
Decode 时候如何把 Encode 作为 memory 字典来查。

主流的序列模型都是基于复杂的循环神经网络或者是卷积神经网络构造而来的 Encoder-Decoder 模型，并且就算是目前性能最好的序列模型也都是基于注意力机制下的 Encoder-Decoder 架构。由于传统的 Encoder-Decoder 架构在建模过程中，下一个时刻的计算过程会依赖于上一个时刻的输出，而这种固有的属性就限制了传统的 Encoder-Decoder 模型就不能以并行的方式进行计算。

模型名称	所属机构	模型大小	模型架构	训练数据
中文 gpt-3	达摩院	30B	transformer decode	数据来源于和
T5	元语智能	3B	transformer	在 1000 亿 token 中文语料上预训练，累计学习 1.5 万亿中文 token
PALM	达摩院	1B	encode（bert），decode（transformer decode）
PLUG	达摩院	27B	先的 encoder，然后训练层的 encoder-decode	数据来源于和
GPT-MoE 中文	阿里云	75B	Switch Transformer decode	130 亿广告
bloom 中文	澜舟科技	6.4B		未公布
GLM	清华	130B	混合 including autoencoding models (e.g., BERT), autoregressive models (e.g., GPT), and encoder-decoder models (e.g., T5)	4000 亿个文本标识符（中文和英文各 2000 亿）进行了训练
CPM-ANT+	OPENBMB 清华	10B	transformer encode（类似 bert）	悟道数据集合优化处理
CPM-BEE	OPENBMB 清华	10B	transformer encode（类似 bert）	悟道数据集合优化处理
ERNIE 3.0 Titan	百度	260B	transformer encode（类似 bert）预训练+transformer decode（类似 gpt）任务端	未公布
源 1.0	浪潮	13B
盘古α	华为	200B	transformer decode architectures of PLMs besides GPT and BERT.	从开源开放数据集、common crawl 数据集、电子书等收集近 80TB 原始语料，构建了约 1.1TB 的高质量中文语料数据集、53 种语种高质量单、双语数据集 2TB
悟道 2.0	北京智源	1750B	transformer decode	0 多种规则从 100TB 原始网页数据中清洗得出最终数据集，注重隐私数据信息的去除，源头上避免 GPT-3 存在的隐私泄露风险；包含教育、科技等 50+ 个行业数据标签

大模型相关技术综述

多模态大模型与大模型训练语料持续迭代

大模型演进历史

预训练模型

Word2Vec

ELMo

Transformer

为什么要 MultiHeadAttention

同维度中的单头与多头的区别

位置编码与编码解码过程

Embedding 机制

Token Embedding

Positional Embedding

Transformer 网络结构

Encoder 层

Decoder 层

Decoder 预测解码过程

Decoder 训练解码过程

位置编码与 Attention Mask

原始 Q、K、V 来源

网络结构与自注意力实现

多层 Transformer

Transformer 中的掩码

Attention Mask

Padding Mask

实现多头注意力机制

多头注意力机制

Transformer-XL

改进点

Switch Transformer

大模型当前主流架构

Bert 系列

Bert、GPT 融合改进模型

Gpt1 到 chatgpt 技术演进路线

1. GPT-1：无监督学习

任务相关的输入变换

GPT-1 的数据集

网络结构的细节

GPT-1 的性能

2. GPT-2：多任务学习

GPT-2 的核心思想

3. GPT-3：海量参数

In-context learning

Few-shot，one-shot，zero-shot learning

数据集

InstrucGPT

T5 系列演进路线

transformer 和 GPT、BERT、T5 上层模型之间的关系

Gpt,gpt2,gpt3,bert,roberta,t5 模型区别分析

只有 decoder：

细节

微调

只有 encoder：

Fine-tunninng

缺点

同时有 encoder-decoder：

体系树作图如下

模型发展时间线

模型大小图

中文大模型介绍

多模态大模型演进

信息压缩

clip

ViT

SVIT

生成模型

生成模型和判别模型的差异

生成模型 VS 判别模型

生成模型例子 - 朴素贝叶斯

判别模型例子 - 逻辑回归

学习-Learning

推理-Inference

VAE

学习 Learning

再参数化-Reparameterization

Amortized Inference

自编码器的视角

GAN

Two-sample tests

用判别器做 Two-Sample Test