DeepSeek-V3 技术报告详解：架构、训练与性能评估

DeepSeek-V3 是一款拥有 671B 参数的混合专家（MoE）语言模型，采用多头潜在注意力（MLA）和 DeepSeekMoE 架构。模型在 14.8 万亿 tokens 上预训练，支持 FP8 混合精度训练，显著降低训练成本至 558 万美元。通过无辅助损失负载均衡策略和 multi-token 预测目标提升性能。后训练阶段从 DeepSeek-R1 提取推理能力。综合评估显示其性能超越多数开源模型，媲美 GPT-4o 等闭源模型，尤其在代码和数学领域表现突出。

乱七八糟发布于 2025/2/6更新于 2026/7/2443 浏览

DeepSeek-V3 技术报告详解

摘要

研究团队推出了 DeepSeek-V3，这是一个强大的混合专家（MoE）语言模型，共有 671B 参数，每个 token 激活 37B 参数。

为了实现高效推理和经济高效的训练，DeepSeek-V3 采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中已得到充分验证。

此外，DeepSeek-V3 率先采用了无辅助损失的负载均衡策略，并设定了 multi-token 预测训练目标，以提升性能。

在 14.8 万亿个多样且高质量的 tokens 上对 DeepSeek-V3 进行预训练，随后通过监督微调（SFT）与强化学习（RL），充分挖掘其能力。

综合评估表明，DeepSeek-V3 超越了其他开源模型，性能可与领先的闭源模型相媲美。

性能卓越的同时，DeepSeek-V3 的完整训练仅需 278.8 万 H800 GPU hour。

此外，训练过程极为稳定，在整个训练过程中，未出现任何不可恢复的损失峰值，也无需进行任何回滚操作。

引言

开源模型取得重大进展，包括 DeepSeek 系列、LLaMA 系列、Qwen 系列以及 Mistral 系列，它们致力于缩小与闭源模型的差距。

为了进一步拓展开源模型的能力边界，团队对模型进行了扩展，并推出了 DeepSeek-V3，这是一个拥有 671B 参数的 MoE 模型，其中每个 token 激活 37B 参数。

从长远来看，团队始终追求强大的模型性能和经济的成本。因此，在架构方面，DeepSeek-V3 仍采用 MLA 以实现高效推理，并采用 DeepSeekMoE 以实现经济高效的训练。

这两种架构在 DeepSeek-V2 中已得到验证，证明了它们在保持强大模型性能的同时，能够实现高效训练和推理。除了基本架构，团队还实施了另外两项策略来进一步提升模型能力。

首先，DeepSeek-V3 率先采用了无辅助损失的负载均衡策略，旨在最小化因鼓励负载均衡而对模型性能产生的不利影响。

其次，DeepSeek-V3 采用了 multi-token 预测训练目标，这有助于提高评估基准的整体性能。

为了实现高效训练，支持 FP8 混合精度训练，并对训练框架进行了全面优化。低精度训练已成为高效训练的一种有前景的解决方案，其发展与硬件能力的进步密切相关。

在这项工作中，引入了 FP8 混合精度训练框架，并首次在超大规模模型上验证了其有效性。通过支持 FP8 计算和存储，实现了加速训练并减少了 GPU 内存使用。

对于训练框架，团队设计了 DualPipe 算法以实现高效的流水线并行，该算法减少了 pipeline bubbles，并通过计算与通信重叠隐藏了训练过程中的大部分通信开销。

此外，还开发了高效的跨节点全对全通信内核，以充分利用 InfiniBand（IB）和 NVLink 带宽。精心优化了内存占用，使得无需使用昂贵的张量并行即可训练 DeepSeek-V3。

预训练期间，在 14.8 万亿个高质量且多样的 tokens 上训练 DeepSeek-V3。预训练过程非常稳定，在整个训练过程中，没有遇到任何不可恢复的损失峰值，也无需回滚。

接下来，对 DeepSeek-V3 进行了两阶段的上下文长度扩展。在第一阶段，最大上下文长度扩展到 32K，在第二阶段，进一步扩展到 128K。之后对 DeepSeek-V3 的基础模型进行了后训练，包括 SFT 和 RL，以使其与人类偏好保持一致，并进一步释放其潜力。在后训练阶段，从 DeepSeekR1 系列模型中提取推理能力，并同时保持模型准确性和生成长度之间的平衡。

本文在一系列综合基准上评估了 DeepSeek-V3。尽管训练成本具有经济性，但综合评估表明，DeepSeek-V3-Base 已成为目前最强的开源基础模型，特别是在代码和数学方面。其聊天版本也优于其他开源模型，并在一系列标准和开放式基准上媲美领先的闭源模型。

最后，再次强调 DeepSeek-V3 的经济训练成本，如表 1 所示。

在预训练阶段，在每万亿 tokens 上训练 DeepSeek-V3 仅需 18 万 H800 GPU hour，即拥有 2048 个 H800 GPU 的集群上仅需 3.7 天。

因此，预训练阶段在不到两个月的时间内完成，耗时 266.4 万 GPU hour。结合 11.9 万 GPU hour 的上下文长度扩展和 5000 GPU hour 的后训练，DeepSeek-V3 的完整训练仅需 278.8 万 GPU hour。

假设 H800 GPU 的租用价格为每 GPU hour 2 美元，该模型的总训练成本仅为 557.6 万美元。

请注意，上述成本仅包括 DeepSeek-V3 的官方训练，不包括先前对架构、算法或数据的研究和消融实验相关成本。

贡献

3.1 架构：创新的负载均衡策略和训练目标

在 DeepSeek-V2 的高效架构基础上，率先采用了无辅助损失的负载均衡策略，最大限度地减少了因鼓励负载均衡而导致的性能下降。

研究了 multi-token 预测（MTP）目标，并证明其对模型性能有益。它还可用于推测解码以加速推理。

3.2 预训练：迈向极致训练效率

DeepSeek-V3 技术报告详解

摘要

研究团队推出了 DeepSeek-V3，这是一个强大的混合专家（MoE）语言模型，共有 671B 参数，每个 token 激活 37B 参数。

为了实现高效推理和经济高效的训练，DeepSeek-V3 采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中已得到充分验证。

此外，DeepSeek-V3 率先采用了无辅助损失的负载均衡策略，并设定了 multi-token 预测训练目标，以提升性能。

在 14.8 万亿个多样且高质量的 tokens 上对 DeepSeek-V3 进行预训练，随后通过监督微调（SFT）与强化学习（RL），充分挖掘其能力。

综合评估表明，DeepSeek-V3 超越了其他开源模型，性能可与领先的闭源模型相媲美。

性能卓越的同时，DeepSeek-V3 的完整训练仅需 278.8 万 H800 GPU hour。

此外，训练过程极为稳定，在整个训练过程中，未出现任何不可恢复的损失峰值，也无需进行任何回滚操作。

引言

开源模型取得重大进展，包括 DeepSeek 系列、LLaMA 系列、Qwen 系列以及 Mistral 系列，它们致力于缩小与闭源模型的差距。

为了进一步拓展开源模型的能力边界，团队对模型进行了扩展，并推出了 DeepSeek-V3，这是一个拥有 671B 参数的 MoE 模型，其中每个 token 激活 37B 参数。

首先，DeepSeek-V3 率先采用了无辅助损失的负载均衡策略，旨在最小化因鼓励负载均衡而对模型性能产生的不利影响。

其次，DeepSeek-V3 采用了 multi-token 预测训练目标，这有助于提高评估基准的整体性能。

最后，再次强调 DeepSeek-V3 的经济训练成本，如表 1 所示。

在预训练阶段，在每万亿 tokens 上训练 DeepSeek-V3 仅需 18 万 H800 GPU hour，即拥有 2048 个 H800 GPU 的集群上仅需 3.7 天。

假设 H800 GPU 的租用价格为每 GPU hour 2 美元，该模型的总训练成本仅为 557.6 万美元。

请注意，上述成本仅包括 DeepSeek-V3 的官方训练，不包括先前对架构、算法或数据的研究和消融实验相关成本。

贡献

3.1 架构：创新的负载均衡策略和训练目标

在 DeepSeek-V2 的高效架构基础上，率先采用了无辅助损失的负载均衡策略，最大限度地减少了因鼓励负载均衡而导致的性能下降。

研究了 multi-token 预测（MTP）目标，并证明其对模型性能有益。它还可用于推测解码以加速推理。

DeepSeek-V3 技术报告详解：架构、训练与性能评估

DeepSeek-V3 技术报告详解

摘要

引言

贡献

3.1 架构：创新的负载均衡策略和训练目标

3.2 预训练：迈向极致训练效率

DeepSeek-V3 技术报告详解：架构、训练与性能评估

DeepSeek-V3 技术报告详解

摘要

引言

贡献

3.1 架构：创新的负载均衡策略和训练目标

3.2 预训练：迈向极致训练效率

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 后训练：从 DeepSeek-R1 中提取知识

3.4 核心评估结果总结

技术架构

4.1 基本架构

4.1.1 总体框架

4.1.2 多头潜在注意力（MLA）

4.1.3 DeepSeekMoE 与无辅助损失负载均衡

4.2 multi-token 预测（MTP）

4.2.1 MTP 模块

4.2.2 MTP 训练目标

4.2.3 MTP 在推理中的应用

基础设施

5.1 计算集群

5.2 训练框架

5.2.1 整体配置

5.2.2 DualPipe 算法与计算 - 通信重叠

5.2.3 高效的跨节点全对全通信实现

5.2.4 内存优化策略

5.3 FP8 训练

5.3.1 混合精度框架

5.3.2 提高量化和乘法精度

5.3.3 低精度存储和通信

5.4 推理与部署

5.4.1 预填充阶段

5.4.2 解码阶段

5.5 对硬件设计的建议

5.5.1 通信硬件

5.5.2 计算硬件

预训练

6.1 数据构建

6.2 超参数设置

6.3 长上下文扩展

6.4 评估

6.5 讨论

后训练

7.1 SFT

7.1.1 数据集构建

7.1.2 微调设置

7.2 RL

7.2.1 奖励模型

7.2.2 组相对策略优化（GRPO）

7.3 评估

7.3.1 评估设置

7.3.2 评估结果

7.4 讨论

结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具