主流大模型架构全景：GPT、LLaMA、DeepSeek 与 Qwen 深度对比

学习目标：理解主流模型的设计逻辑与权衡，不仅知道名字，更能画出架构图并解释背后的原因。

GPT 系列架构演进 | 从 GPT-1 到 GPT-4

核心概念

GPT（Generative Pre-trained Transformer）是 OpenAI 推出的系列模型，核心思想是在大量文本上做自回归预训练，然后通过 prompt 引导完成各种任务。

GPT-1 (2018)：首次证明'预训练 + 微调'在 NLP 上的威力。12 层 Transformer Decoder，117M 参数。使用 BookCorpus 做 CLM 预训练。
GPT-2 (2019)：证明'大模型 + 大数据 + zero-shot'可行。1.5B 参数。关键洞察是不需要微调，prompt 就能做任务。
GPT-3 (2020)：175B 参数，ICL 的标志性模型。96 层、12288 维度、96 头。训练数据 300B tokens。核心发现是 few-shot 就能做几乎任何任务。
GPT-4 (2023)：多模态，传闻采用 MoE 架构（8 个专家，每次激活 2 个，总参数约 1.8T）。

代际	参数量	层数	隐藏维度	头数	上下文	核心创新
GPT-1	117M	12	768	12	512	预训练 + 微调
GPT-2	1.5B	48	1600	25	1024	Zero-Shot, Pre-Norm
GPT-3	175B	96	12288	96	2048	ICL, Few-Shot
GPT-4	~1.8T?	?	?	?	128K	多模态，MoE

原理推导

GPT 的预训练目标：Causal Language Modeling (CLM)

$$\mathcal{L} = -\sum_{t=1}^{T} \log P(x_t | x_{<t}; \theta)$$

每个 token 基于前面所有 token 预测下一个，所有位置都参与 loss 计算。

ICL（In-Context Learning）为什么有效？

GPT-3 论文解释：大模型在预训练时隐式学会了'从上下文示例中学习'。
贝叶斯推理解释：ICL 是在做隐式贝叶斯推理。
梯度下降视角：Transformer 的前向传播等价于在隐式执行梯度下降。
直觉理解：预训练数据中天然包含'示例→回答'模式。

Pre-Norm vs Post-Norm：为什么 GPT-2 切换到 Pre-Norm？

Post-Norm: x → Attn → Add → LN → FFN →  → LN 
PreNorm: x → LN → Attn →  → LN → FFN →

参数	LLaMA-7B	LLaMA-13B	LLaMA-70B	LLaMA-405B
层数	32	40	80	126
维度	4096	5120	8192	16384
头数	32	40	64	128
KV 头数	32	40	8	8
FFN 维度	11008	13824	28672	53248

方案	Q 头数	KV 头数	KV-Cache 大小	精度
MHA	h	h	2×h×dk×L	最高
MQA	h	1	2×dk×L	有损失
GQA-g	h	g	2×g×dk×L	接近 MHA

特性	Qwen-2.5
注意力	GQA
FFN	SwiGLU
位置编码	RoPE
词表	151,643
Bias	QKV 有 bias

规格	0.5B	1.5B	7B	14B	32B	72B
层数	24	28	28	40	64	80
维度	896	1536	3584	5120	5120	8192
Q 头数	14	12	28	40	40	64
KV 头数	2	2	4	8	8	8
FFN 维度	4864	8960	18944	13824	27648	29568

能力	Qwen-72B	LLaMA-70B	DeepSeek-V2
中文	最强	一般	强
英文	强	最强	强
代码	强	强	强
数学	最强	一般	强
多模态	原生支持	需 LLaVA	不支持
词表大小	151K	128K	100K

模型	总参数	激活参数	专家数	Top-K	共享专家
Switch Transformer	各种	各种	各种	1	无
GShard	各种	各种	各种	2	无
Mixtral 8x7B	46.7B	12.9B	8	2	无
DeepSeek-V2	236B	21B	162	8	2
DeepSeek-V3	671B	37B	257	8+1 共享	1

阶段	模型	核心创新
2022	Switch Transformer	Top-1 路由，简化通信
2022	GShard	Top-2 路由，容量因子
2024	Mixtral	第一个开源高质量 MoE
2024	DeepSeekMoE	细粒度专家 + 共享专家
2024	DeepSeek-V3	无辅助损失负载均衡

模型	参数量	Tokens	比例	策略
GPT-3	175B	300B	1:1.7	Kaplan 时代
Chinchilla	70B	1.4T	1:20	Chinchilla 最优
LLaMA-1	7B	1.4T	1:200	Over-Training
LLaMA-3	8B	15T	1:1875	极致 Over-Training

算法	核心思想	方向	代表
BPE	反复合并最高频相邻对	自底向上	GPT
WordPiece	按似然选择合并	自底向上	BERT
Unigram	从大词表反复删除低分词	自顶向下	SentencePiece
Byte-level BPE	字节为基础单元做 BPE	自底向上	GPT-2+, LLaMA

模型	词表大小	算法	中文效率
GPT-2	50,257	Byte-level BPE	低（每字 2-3 token）
LLaMA-1	32,000	SentencePiece BPE	低
LLaMA-3	128,256	tiktoken BPE	中高
Qwen-2.5	151,643	tiktoken BPE	高（常用字 1 token）
DeepSeek-V3	100,015	BPE	中高

场景	推荐模型	理由
代码生成	DeepSeek-Coder / Qwen-Coder	代码专项训练，HumanEval 高
数学推理	DeepSeek-R1 / Qwen-Math	推理链能力强
中文对话	Qwen-2.5 / DeepSeek-V3	中文训练数据占比高
英文通用	LLaMA-3 / Mistral	英文 benchmark 最强
RAG 系统	Qwen-7B~14B	性价比高，上下文够长
多模态	Qwen-VL / LLaVA	原生图文理解
端侧部署	Phi-3 / Qwen-0.5B	参数量极小

模型	FP16 显存	INT8 显存	INT4 显存
7B	14GB	7GB	4GB
14B	28GB	14GB	8GB
70B	140GB	70GB	35GB
405B	810GB	405GB	203GB

模块	核心知识点	面试题数
GPT 系列	演进脉络、ICL、Pre-Norm	5 题
LLaMA 系列	RMSNorm、SwiGLU、GQA、RoPE	6 题
DeepSeek 系列	MLA、MoE、R1、FP8	6 题
Qwen 系列	大词表、YARN、VL	4 题
MoE 架构	Router、负载均衡、共享专家	4 题
Scaling Laws	Chinchilla、涌现能力	4 题
Tokenizer	BPE、Unigram、多语言	4 题
模型选型	场景选型、评估方法	4 题

主流大模型架构全景：GPT、LLaMA、DeepSeek 与 Qwen 深度对比

主流大模型架构全景：GPT、LLaMA、DeepSeek 与 Qwen 深度对比

GPT 系列架构演进 | 从 GPT-1 到 GPT-4

核心概念

原理推导

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

代码实现

工程实践

面试考点精讲

LLaMA 系列 | 开源 LLM 的标杆

核心概念

原理推导

代码实现

工程实践

面试考点精讲

【大厂真题】

DeepSeek 系列 | MoE 与创新架构

核心概念

原理推导

代码实现

工程实践

面试考点精讲

Qwen 系列 | 阿里的全能选手

核心概念

原理推导

工程实践

面试考点精讲

MoE 架构 | 用更少算力训练更大模型

核心概念

原理推导

代码实现

面试考点精讲

Scaling Laws | 模型规模的科学

核心概念

面试考点精讲

Tokenizer | 大模型的'语言入口'

核心概念

面试考点精讲

模型选型指南 | 面试中如何回答'选什么模型'

选型决策树

面试考点精讲

全章总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具