主流大模型架构全景：GPT、LLaMA、DeepSeek 与 Qwen 深度解析 | 极客日志

PythonAI算法

主流大模型架构全景：GPT、LLaMA、DeepSeek 与 Qwen 深度解析

主流大模型架构全景：GPT、LLaMA、DeepSeek 与 Qwen 深度解析。涵盖 GPT 系列 Pre-Norm 演进、LLaMA 的 RMSNorm 与 GQA 设计、DeepSeek 的 MLA 与 MoE 创新以及 Qwen 的大词表策略。结合 Scaling Laws 与 Tokenizer 原理，提供工程实践细节与常见面试考点解析，帮助理解设计权衡与选型逻辑。

暗影行者发布于 2026/4/10更新于 2026/7/2238 浏览

主流大模型架构全景

深入理解每个主流模型的设计思路与权衡，是面试中超越表面认知的关键。本章将带你梳理 GPT、LLaMA、DeepSeek 及 Qwen 的架构演进，从核心原理到工程实践，再到常见面试考点。

GPT 系列架构演进

1. 核心概念

GPT（Generative Pre-trained Transformer）由 OpenAI 推出，核心在于大规模文本自回归预训练配合 Prompt 引导任务。

GPT-1 (2018): 验证了'预训练 + 微调'范式。12 层 Transformer Decoder，1.17 亿参数。
GPT-2 (2019): 证明大模型配合大数据可实现 Zero-Shot。15 亿参数，无需微调即可通过 Prompt 完成任务。
GPT-3 (2020): 1750 亿参数，ICL（上下文学习）标志性模型。Few-Shot 即可处理多种任务。
GPT-4 (2023): 多模态，传闻采用 MoE 架构，总参数量巨大。

代际	参数量	层数	隐藏维度	头数	上下文	核心创新
GPT-1	117M	12	768	12	512	预训练 + 微调
GPT-2	1.5B	48	1600	25	1024	Zero-Shot, Pre-Norm
GPT-3	175B	96	12288	96	2048	ICL, Few-Shot
GPT-4	~1.8T?	?	?	?	128K	多模态，MoE

2. 原理推导

GPT 的预训练目标：因果语言建模 (CLM)

$$\mathcal{L} = -\sum_{t=1}^{T} \log P(x_t | x_{<t}; \theta)$$

每个 token 基于前面所有 token 预测下一个，所有位置参与 Loss 计算。

Pre-Norm vs Post-Norm

GPT-2 从 Post-Norm 切换到 Pre-Norm 是为了解决深层梯度消失问题。

class GPT2Block(nn.Module):
    def __init__(self, d_model, n_heads, d_ff, dropout=0.1):
        super().__init__()
        self.ln1 = nn.LayerNorm(d_model)  # Pre-Norm
        self.attn = MultiHeadAttention(d_model, n_heads, dropout)
        .ln2 = nn.LayerNorm(d_model)
        .ffn = nn.Sequential(
            nn.Linear(d_model, d_ff),
            nn.GELU(),
            nn.Linear(d_ff, d_model),
            nn.Dropout(dropout)
        )

     ():
        x = x + .attn(.ln1(x), mask=mask)
        x = x + .ffn(.ln2(x))
         x

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

class LLaMABlock(nn.Module):
    def __init__(self, d_model, n_heads, n_kv_heads, d_ff):
        super().__init__()
        self.norm1 = RMSNorm(d_model)
        self.attn = GroupedQueryAttention(d_model, n_heads, n_kv_heads)
        self.norm2 = RMSNorm(d_model)
        self.ffn = SwiGLU_FFN(d_model, d_ff)

    def forward(self, x, freqs_cis, mask=None):
        h = x + self.attn(self.norm1(x), freqs_cis, mask)
        out = h + self.ffn(self.norm2(h))
        return out

模块	核心知识点
GPT 系列	演进脉络、ICL、Pre-Norm
LLaMA 系列	RMSNorm、SwiGLU、GQA、RoPE
DeepSeek 系列	MLA、MoE、R1、FP8
Qwen 系列	大词表、YARN、VL
MoE 架构	Router、负载均衡、共享专家
Scaling Laws	Chinchilla、涌现能力
Tokenizer	BPE、Unigram、多语言
模型选型	场景选型、评估方法

主流大模型架构全景：GPT、LLaMA、DeepSeek 与 Qwen 深度解析

主流大模型架构全景

GPT 系列架构演进

1. 核心概念

2. 原理推导

更多推荐文章

相关免费在线工具

3. 面试要点

LLaMA 系列架构

1. 核心设计

2. 代码实现

3. 行业洞察

DeepSeek 系列创新

1. 核心突破

2. 面试考点

Qwen 系列策略

1. 特点分析

2. 选型指南

总结

更多推荐文章

相关免费在线工具

主流大模型架构全景：GPT、LLaMA、DeepSeek 与 Qwen 深度解析

主流大模型架构全景

GPT 系列架构演进

1. 核心概念

2. 原理推导

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 面试要点

LLaMA 系列架构

1. 核心设计

2. 代码实现

3. 行业洞察

DeepSeek 系列创新

1. 核心突破

2. 面试考点

Qwen 系列策略

1. 特点分析

2. 选型指南

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具