DeepSeek-V2 架构解析：MLA + DeepSeekMoE 与主流架构对比

摘要：本文在 Decoder-only Transformer、LLaMA 架构与 DeepSeekMoE 架构的基础上，系统介绍 DeepSeek-V2 的架构设计及与 MHA/GQA/MQA、LLaMA、Mixtral 等主流架构的对比。内容包括：DeepSeek-V2 的整体定位（236B 总参数、21B 激活、128K 上下文）、Multi-head Latent Attention（MLA）的低秩 K-V 联合压缩与解耦 RoPE、DeepSeekMoE 在 V2 中的使用及设备受限路由与负载均衡、模型超参与长上下文扩展（YaRN），以及与其他架构的对比表。旨在帮助读者理解 DeepSeek-V2 如何通过「省 KV 缓存」与「省激活计算」同时实现经济训练与高效推理。

关键词：DeepSeek-V2；MLA；Multi-head Latent Attention；低秩 K-V 压缩；解耦 RoPE；DeepSeekMoE；KV cache；大语言模型

论文：DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model（DeepSeek-AI, 2024）

💡 理解要点：DeepSeek-V2 是在 Decoder-only Transformer 骨架下，同时革新注意力与 FFN 的 MoE 大模型：用 MLA 大幅压缩 KV cache、用 DeepSeekMoE 做稀疏 FFN。相比 DeepSeek 67B，训练成本省 42.5%、KV cache 降 93.3%、最大生成吞吐约 5.76×，且仅用 21B 激活参数即可达到开源第一梯队表现。

1. 概述：DeepSeek-V2 在 Transformer 家族中的位置

DeepSeek-V2 仍属 Decoder-only 架构：每层由注意力模块 + FFN（此处为 MoE）组成，无 Encoder、无交叉注意力。与 Decoder Only Transformer 和 LLaMA 相比，其两大创新为：

注意力：用 Multi-head Latent Attention（MLA）替代标准 MHA。MLA 通过低秩 K-V 联合压缩把推理时的 KV cache 从 $2n_h d_h l$ 压到约 $(d_c + d_h^R) l$，并配合解耦 RoPE 使推理时无需为前缀 token 重算 key，从而显著提升推理吞吐与长上下文能力。
FFN：用 DeepSeekMoE 替代稠密 FFN，通过细粒度专家切分与共享专家隔离，在总参数 236B、每 token 仅激活 21B 的前提下达到强性能。

请添加图片描述

因此，单层 DeepSeek-V2 的数据流可概括为：归一化 → MLA（含解耦 RoPE）→ 残差 → 归一化 → DeepSeekMoE → 残差。其他细节（如层归一化、激活函数）与 DeepSeek 67B 保持一致；除非特别说明，下文均沿用 LLaMA 架构中的符号与维度约定。

🔍 实际例子：若序列长度 L = 4096、隐藏维度 d = 5120、层数 l = 60，则标准 MHA 每 token 的 KV cache 约为 $2 \times 128 \times 128 \times 60 \approx 196$ 万元素；MLA 下仅缓存 $d_c + d_h^R$ 维的潜在向量与解耦 key，每层约 $512 + 64 = 576$ 维，总约 $576 \times 60 \approx 3.5$ 万元素，约为前者的 1/56。

下文先详述 MLA 的动机与数学形式，再简述 DeepSeekMoE 在 V2 中的配置与路由/均衡设计，最后给出超参、长上下文与架构对比。

2. Multi-head Latent Attention（MLA）：动机与标准 MHA 回顾

2.1 标准 MHA 的符号与维度（简要复习）

请添加图片描述

注意力机制	每 token KV cache（元素个数）	能力（相对）
MHA	$2 n_h d_h l$	强
GQA	$2 n_g d_h l$（$n_g$ 为 group 数）	中等
MQA	$2 d_h l$	较弱
MLA	$(d_c + d_h^R) l \approx \frac{9}{2} d_h l$	更强

维度	LLaMA / DeepSeek 67B	GQA（如 LLaMA-2 70B）	MQA	Mixtral 8×22B	DeepSeek-V2
注意力	MHA，全头 K/V	多 Q 头共享少量 K/V 头	多 Q 头共享单组 K/V	MHA	MLA（低秩 K-V + 解耦 RoPE）
KV cache	$2 n_h d_h l$	$2 n_g d_h l$	$2 d_h l$	同 MHA	$(d_c+d_h^R)l \approx 2.25 d_h l$
FFN	稠密，每层单一 FFN	同左	同左	MoE，Top-K 路由	DeepSeekMoE（共享 + 细粒度路由）
总参数	67B / 70B 量级	70B	—	141B	236B
激活参数	同总参数	同总参数	—	~39B	21B
设计目标	通用能力	省 KV、略损能力	极省 KV、能力弱	参数大、激活省	省 KV + 省激活 + 强能力

DeepSeek-V2 架构解析：MLA + DeepSeekMoE 与主流架构对比

1. 概述：DeepSeek-V2 在 Transformer 家族中的位置

2. Multi-head Latent Attention（MLA）：动机与标准 MHA 回顾

2.1 标准 MHA 的符号与维度（简要复习）

更多推荐文章

相关免费在线工具

2.2 为什么需要压缩 KV cache？

3. MLA 的核心：低秩 K-V 联合压缩

3.1 用一个小向量表示 K、V

3.2 Query 的低秩压缩（训练时省激活显存）

3.3 解耦 RoPE：为什么必须、怎么做

3.4 KV cache 与注意力机制对比

4. DeepSeekMoE 在 DeepSeek-V2 中的使用

4.1 基本形式回顾

4.2 设备受限路由（Device-Limited Routing）

4.3 三类负载均衡损失

4.4 Token-Dropping 策略

5. 模型超参与规模概览

6. 长上下文扩展（YaRN）

7. 与主流架构的对比

8. 训练与推理效率（数据摘要）

9. 小结与相关文档

更多推荐文章

相关免费在线工具

DeepSeek-V2 架构解析：MLA + DeepSeekMoE 与主流架构对比

1. 概述：DeepSeek-V2 在 Transformer 家族中的位置

2. Multi-head Latent Attention（MLA）：动机与标准 MHA 回顾

2.1 标准 MHA 的符号与维度（简要复习）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 为什么需要压缩 KV cache？

3. MLA 的核心：低秩 K-V 联合压缩

3.1 用一个小向量表示 K、V

3.2 Query 的低秩压缩（训练时省激活显存）

3.3 解耦 RoPE：为什么必须、怎么做

3.4 KV cache 与注意力机制对比

4. DeepSeekMoE 在 DeepSeek-V2 中的使用

4.1 基本形式回顾

4.2 设备受限路由（Device-Limited Routing）

4.3 三类负载均衡损失

4.4 Token-Dropping 策略

5. 模型超参与规模概览

6. 长上下文扩展（YaRN）

7. 与主流架构的对比

8. 训练与推理效率（数据摘要）

9. 小结与相关文档

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具