PythonAI算法

主流大模型架构全景 | GPT/LLaMA/DeepSeek/Qwen 深度对比

主流大模型架构涵盖 GPT、LLaMA、DeepSeek 及 Qwen 系列。GPT 系列演进体现自回归预训练与 Prompt 工程，引入 Pre-Norm 与 MoE 架构。LLaMA 确立开源标杆，采用 RMSNorm、SwiGLU、RoPE 及 GQA 优化效率。DeepSeek 创新 MLA 压缩 KV Cache 与细粒度 MoE 路由机制，降低训练成本。Qwen 凭借大词表与 YARN 位置编码扩展长上下文能力。MoE 架构通过稀疏激活平衡参数规模与推理速度，Scaling Laws 指导数据与模型比例，Tokenizer 设计影响多语言编码效率。文章提供架构对比、原理推导、代码实现及面试考点解析，辅助技术选型与深度理解。

云朵棉花糖发布于 2026/4/10更新于 2026/6/1022 浏览

主流大模型架构全景 | GPT/LLaMA/DeepSeek/Qwen 深度对比

模块一：GPT 系列架构演进 | 从 GPT-1 到 GPT-4

1.1 核心概念

什么是 GPT？

GPT（Generative Pre-trained Transformer）是 OpenAI 推出的系列模型，核心思想是在大量文本上做自回归预训练，然后通过 prompt 引导做各种任务。

GPT-1（2018）：首次证明预训练 + 微调在 NLP 上的威力。12 层 Transformer Decoder，117M 参数。用 BookCorpus 做 CLM 预训练。

GPT-2（2019）：证明大模型 + 大数据+zero-shot 可行。1.5B 参数。关键洞察：不需要微调，prompt 就能做任务。

GPT-3（2020）：175B 参数，ICL 的标志性模型。96 层、12288 维度、96 头。训练数据 300B tokens。核心发现：few-shot 就能做几乎任何任务。

GPT-4（2023）：多模态，传闻 MoE 架构（8 个专家，每次激活 2 个，总参数约 1.8T）。

代际	参数量	层数	隐藏维度	头数	上下文	核心创新
GPT-1	117M	12	768	12	512	预训练 + 微调
GPT-2	1.5B	48	1600	25	1024	Zero-Shot, Pre-Norm
GPT-3	175B	96	12288	96	2048	ICL, Few-Shot
GPT-4	~1.8T?	?	?	?	128K	多模态，MoE

1.2 原理推导

GPT 的预训练目标：Causal Language Modeling (CLM)

$$\mathcal{L} = -\sum_{t=1}^{T} \log P(x_t | x_{<t}; \theta)$$

每个 token 基于前面所有 token 预测下一个，所有位置都参与 loss 计算。

ICL（In-Context Learning）为什么有效？

GPT-3 论文的解释：大模型在预训练时隐式学会了从上下文示例中学习
贝叶斯推理解释（Xie et al., 2022）：ICL 是在做隐式贝叶斯推理
梯度下降视角（Akyürek et al., 2023）：Transformer 的前向传播等价于在隐式执行梯度下降
直觉理解：预训练数据中天然包含示例→回答模式

Pre-Norm vs Post-Norm：为什么 GPT-2 切换到 Pre-Norm？

Post-Norm: x → Attn → Add → LN → FFN → Add → LN 
Pre-Norm: x → LN → Attn →  → LN → FFN →

# GPT-2 风格的 Transformer Block
class GPT2Block(nn.Module):
    def __init__(self, d_model, n_heads, d_ff, dropout=0.1):
        super().__init__()
        self.ln1 = nn.LayerNorm(d_model) # Pre-Norm
        self.attn = MultiHeadAttention(d_model, n_heads, dropout)
        self.ln2 = nn.LayerNorm(d_model)
        self.ffn = nn.Sequential(
            nn.Linear(d_model, d_ff),
            nn.GELU(),
            nn.Linear(d_ff, d_model),
            nn.Dropout(dropout)
        )
    
    def forward(self, x, mask=None):
        x = x + self.attn(self.ln1(x), mask=mask)
        x = x + self.ffn(self.ln2(x))
        return x

Input tokens ↓ [Embedding (无位置编码)] ↓ 
┌──────────────────────────────┐ ×N 层 
│ RMSNorm → GQA + RoPE → Add │ 
│ RMSNorm → SwiGLU FFN → Add │ 
└──────────────────────────────┘ 
↓ [RMSNorm → Linear → Softmax] 
↓ Output logits

参数	LLaMA-7B	LLaMA-13B	LLaMA-70B	LLaMA-405B
层数	32	40	80	126
维度	4096	5120	8192	16384
头数	32	40	64	128
KV 头数	32	40	8	8
FFN 维度	11008	13824	28672	53248

方案	Q 头数	KV 头数	KV-Cache 大小	精度
MHA	h	h	2×h×dk×L	最高
MQA	h	1	2×dk×L	有损失
GQA-g	h	g	2×g×dk×L	接近 MHA

MHA: Q1→KV1 Q2→KV2 Q3→KV3 Q4→KV4 (每个 Q 有自己的 KV)
MQA: Q1→KV1 Q2→KV1 Q3→KV1 Q4→KV1 (所有 Q 共享 1 个 KV)
GQA: Q1→KV1 Q2→KV1 Q3→KV2 Q4→KV2 (分组共享 KV)

class LLaMABlock(nn.Module):
    def __init__(self, d_model, n_heads, n_kv_heads, d_ff):
        super().__init__()
        self.norm1 = RMSNorm(d_model)
        self.attn = GroupedQueryAttention(d_model, n_heads, n_kv_heads)
        self.norm2 = RMSNorm(d_model)
        self.ffn = SwiGLU_FFN(d_model, d_ff)
    
    def forward(self, x, freqs_cis, mask=None):
        h = x + self.attn(self.norm1(x), freqs_cis, mask)
        out = h + self.ffn(self.norm2(h))
        return out

标准 MHA 缓存：[K_1, K_2, ..., K_128, V_1, V_2, ..., V_128] → 32768 维 
MLA 缓存：[c_KV] → 512 维

Stage 1: 冷启动 SFT → 基础指令跟随能力 
↓ Stage 2: 大规模 RL（GRPO）→ 模型自发学会推理（涌现 CoT） 
↓ Stage 3: Rejection Sampling → 收集高质量推理数据 
↓ Stage 4: SFT + RL → 最终对齐（格式、安全、有用性） 
↓ Stage 5: 蒸馏 → R1-Distill 系列（1.5B~70B）

class MultiLatentAttention(nn.Module):
    def __init__(self, d_model, n_heads, d_compress):
        super().__init__()
        self.d_k = d_model // n_heads
        self.w_dkv = nn.Linear(d_model, d_compress, bias=False)
        self.w_uk = nn.Linear(d_compress, n_heads * self.d_k, bias=False)
        self.w_uv = nn.Linear(d_compress, n_heads * self.d_k, bias=False)
        self.w_q = nn.Linear(d_model, n_heads * self.d_k, bias=False)
        self.w_o = nn.Linear(n_heads * self.d_k, d_model, bias=False)

特性	Qwen-2.5
注意力	GQA
FFN	SwiGLU
位置编码	RoPE
词表	151,643
Bias	QKV 有 bias

规格	0.5B	1.5B	7B	14B	32B	72B
层数	24	28	28	40	64	80
维度	896	1536	3584	5120	5120	8192
Q 头数	14	12	28	40	40	64
KV 头数	2	2	4	8	8	8
FFN 维度	4864	8960	18944	13824	27648	29568

能力	Qwen-72B	LLaMA-70B	DeepSeek-V2
中文	最强	一般	强
英文	强	最强	强
代码	强	强	强
数学	最强	一般	强
多模态	原生支持	需 LLaVA	不支持
词表大小	151K	128K	100K

模型	总参数	激活参数	专家数	Top-K	共享专家
Switch Transformer	各种	各种	各种	1	无
GShard	各种	各种	各种	2	无
Mixtral 8x7B	46.7B	12.9B	8	2	无
DeepSeek-V2	236B	21B	162	8	2
DeepSeek-V3	671B	37B	257	8+1 共享	1

阶段	模型	核心创新
2022	Switch Transformer	Top-1 路由，简化通信
2022	GShard	Top-2 路由，容量因子
2024	Mixtral	第一个开源高质量 MoE
2024	DeepSeekMoE	细粒度专家 + 共享专家
2024	DeepSeek-V3	无辅助损失负载均衡

Step 1: 每个 GPU 计算所有 token 的路由决策 
Step 2: All-to-All → 把 token 发送到对应专家所在的 GPU 
Step 3: 每个 GPU 上的专家处理分配到的 token 
Step 4: All-to-All → 把结果发回原始 GPU

class MoELayer(nn.Module):
    def __init__(self, d_model, d_ff, n_experts, top_k):
        super().__init__()
        self.gate = nn.Linear(d_model, n_experts, bias=False)
        self.experts = nn.ModuleList([
            SwiGLU_FFN(d_model, d_ff) for _ in range(n_experts)
        ])
        self.top_k = top_k
    
    def forward(self, x):
        # x: [batch, seq, d_model]
        bsz, seq_len, d = x.shape
        x_flat = x.view(-1, d) # [B*S, d]
        # 路由计算
        logits = self.gate(x_flat) # [B*S, n_experts]
        weights, indices = torch.topk(
            torch.softmax(logits, dim=-1), self.top_k
        )
        weights = weights / weights.sum(dim=-1, keepdim=True)
        # 稀疏计算（简化版，实际用 scatter/gather 优化）
        output = torch.zeros_like(x_flat)
        for i, expert in enumerate(self.experts):
            mask = (indices == i).any(dim=-1)
            if mask.any():
                expert_input = x_flat[mask]
                expert_output = expert(expert_input)
                # 加权合并
                w = weights[mask][indices[mask] == i]
                output[mask] += w.unsqueeze(-1) * expert_output
        return output.view(bsz, seq_len, d)

模型	参数量	Tokens	比例	策略
GPT-3	175B	300B	1:1.7	Kaplan 时代
Chinchilla	70B	1.4T	1:20	Chinchilla 最优
LLaMA-1	7B	1.4T	1:200	Over-Training
LLaMA-3	8B	15T	1:1875	极致 Over-Training

算法	核心思想	方向	代表
BPE	反复合并最高频相邻对	自底向上	GPT
WordPiece	按似然选择合并	自底向上	BERT
Unigram	从大词表反复删除低分词	自顶向下	SentencePiece
Byte-level BPE	字节为基础单元做 BPE	自底向上	GPT-2+, LLaMA

Input: 训练语料，目标词表大小 V
1. 初始化词表 = 所有字节 (256 个) + 特殊 token
2. while |词表| < V:
3. 统计语料中所有相邻 token 对的频率
4. 找到频率最高的 pair (a, b)
5. 将所有 "a b" 替换为 "ab"
6. 将 "ab" 加入词表
7. return 词表 + 合并规则

模型	词表大小	算法	中文效率
GPT-2	50,257	Byte-level BPE	低（每字 2-3 token）
LLaMA-1	32,000	SentencePiece BPE	低
LLaMA-3	128,256	tiktoken BPE	中高
Qwen-2.5	151,643	tiktoken BPE	高（常用字 1 token）
DeepSeek-V3	100,015	BPE	中高

需要最强性能？→ GPT-4o / Claude / Gemini 
需要本地部署？ ├── 多卡 (80GB+) → DeepSeek-V3 / LLaMA-405B 
               ├── 单卡 80GB → LLaMA-70B-Q4 / Qwen-72B-Q4 
               ├── 单卡 40-48GB → LLaMA-70B-Q2 / Qwen-14B 
               ├── 单卡 24GB → LLaMA-8B / Qwen-7B 
               └── 单卡 16GB → Qwen-7B-Q4 / Phi-3-mini

场景	推荐模型	理由
代码生成	DeepSeek-Coder / Qwen-Coder	代码专项训练，HumanEval 高
数学推理	DeepSeek-R1 / Qwen-Math	推理链能力强
中文对话	Qwen-2.5 / DeepSeek-V3	中文训练数据占比高
英文通用	LLaMA-3 / Mistral	英文 benchmark 最强
RAG 系统	Qwen-7B~14B	性价比高，上下文够长
多模态	Qwen-VL / LLaVA	原生图文理解
端侧部署	Phi-3 / Qwen-0.5B	参数量极小

模型	FP16 显存	INT8 显存	INT4 显存
7B	14GB	7GB	4GB
14B	28GB	14GB	8GB
70B	140GB	70GB	35GB
405B	810GB	405GB	203GB

模块	核心知识点	面试题数
GPT 系列	演进脉络、ICL、Pre-Norm	5 题
LLaMA 系列	RMSNorm、SwiGLU、GQA、RoPE	6 题
DeepSeek 系列	MLA、MoE、R1、FP8	6 题
Qwen 系列	大词表、YARN、VL	4 题
MoE 架构	Router、负载均衡、共享专家	4 题
Scaling Laws	Chinchilla、涌现能力	4 题
Tokenizer	BPE、Unigram、多语言	4 题
模型选型	场景选型、评估方法	4 题

主流大模型架构全景 | GPT/LLaMA/DeepSeek/Qwen 深度对比

主流大模型架构全景 | GPT/LLaMA/DeepSeek/Qwen 深度对比

模块一：GPT 系列架构演进 | 从 GPT-1 到 GPT-4

1.1 核心概念

1.2 原理推导

主流大模型架构全景 | GPT/LLaMA/DeepSeek/Qwen 深度对比

主流大模型架构全景 | GPT/LLaMA/DeepSeek/Qwen 深度对比

模块一：GPT 系列架构演进 | 从 GPT-1 到 GPT-4

1.1 核心概念

1.2 原理推导

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.3 代码实现

1.4 工程实践

1.5 面试考点精讲

模块二：LLaMA 系列 | 开源 LLM 的标杆

2.1 核心概念

2.2 原理推导

2.3 代码实现

2.4 工程实践

2.5 面试考点精讲

2.6 【大厂真题 - 字节/DeepSeek 高频】

模块三：DeepSeek 系列 | MoE 与创新架构

3.1 核心概念

3.2 原理推导

3.3 代码实现

3.4 工程实践

3.5 面试考点精讲

模块四：Qwen 系列 | 阿里的全能选手

4.1 核心概念

4.2 原理推导

4.3 工程实践

4.4 面试考点精讲

模块五：MoE 架构 | 用更少算力训练更大模型

5.1 核心概念

5.2 原理推导

5.3 代码实现

5.4 面试考点精讲

模块六：Scaling Laws | 模型规模的科学

6.1 核心概念

6.2 面试考点精讲

模块七：Tokenizer | 大模型的语言入口

7.1 核心概念

7.2 面试考点精讲

模块八：模型选型指南 | 面试中如何回答选什么模型

8.1 选型决策树

8.2 面试考点精讲

全章总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具