DeepSeek-V3 技术报告详解
摘要
研究团队推出了 DeepSeek-V3,这是一个强大的混合专家(MoE)语言模型,共有 671B 参数,每个 token 激活 37B 参数。
为了实现高效推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力(MLA)和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中已得到充分验证。
此外,DeepSeek-V3 率先采用了无辅助损失的负载均衡策略,并设定了 multi-token 预测训练目标,以提升性能。
在 14.8 万亿个多样且高质量的 tokens 上对 DeepSeek-V3 进行预训练,随后通过监督微调(SFT)与强化学习(RL),充分挖掘其能力。
综合评估表明,DeepSeek-V3 超越了其他开源模型,性能可与领先的闭源模型相媲美。
性能卓越的同时,DeepSeek-V3 的完整训练仅需 278.8 万 H800 GPU hour。
此外,训练过程极为稳定,在整个训练过程中,未出现任何不可恢复的损失峰值,也无需进行任何回滚操作。
引言
开源模型取得重大进展,包括 DeepSeek 系列、LLaMA 系列、Qwen 系列以及 Mistral 系列,它们致力于缩小与闭源模型的差距。
为了进一步拓展开源模型的能力边界,团队对模型进行了扩展,并推出了 DeepSeek-V3,这是一个拥有 671B 参数的 MoE 模型,其中每个 token 激活 37B 参数。
从长远来看,团队始终追求强大的模型性能和经济的成本。因此,在架构方面,DeepSeek-V3 仍采用 MLA 以实现高效推理,并采用 DeepSeekMoE 以实现经济高效的训练。
这两种架构在 DeepSeek-V2 中已得到验证,证明了它们在保持强大模型性能的同时,能够实现高效训练和推理。除了基本架构,团队还实施了另外两项策略来进一步提升模型能力。
首先,DeepSeek-V3 率先采用了无辅助损失的负载均衡策略,旨在最小化因鼓励负载均衡而对模型性能产生的不利影响。
其次,DeepSeek-V3 采用了 multi-token 预测训练目标,这有助于提高评估基准的整体性能。
为了实现高效训练,支持 FP8 混合精度训练,并对训练框架进行了全面优化。低精度训练已成为高效训练的一种有前景的解决方案,其发展与硬件能力的进步密切相关。
在这项工作中,引入了 FP8 混合精度训练框架,并首次在超大规模模型上验证了其有效性。通过支持 FP8 计算和存储,实现了加速训练并减少了 GPU 内存使用。
对于训练框架,团队设计了 DualPipe 算法以实现高效的流水线并行,该算法减少了 pipeline bubbles,并通过计算与通信重叠隐藏了训练过程中的大部分通信开销。
此外,还开发了高效的跨节点全对全通信内核,以充分利用 InfiniBand(IB)和 NVLink 带宽。精心优化了内存占用,使得无需使用昂贵的张量并行即可训练 DeepSeek-V3。
预训练期间,在 14.8 万亿个高质量且多样的 tokens 上训练 DeepSeek-V3。预训练过程非常稳定,在整个训练过程中,没有遇到任何不可恢复的损失峰值,也无需回滚。
接下来,对 DeepSeek-V3 进行了两阶段的上下文长度扩展。在第一阶段,最大上下文长度扩展到 32K,在第二阶段,进一步扩展到 128K。之后对 DeepSeek-V3 的基础模型进行了后训练,包括 SFT 和 RL,以使其与人类偏好保持一致,并进一步释放其潜力。在后训练阶段,从 DeepSeekR1 系列模型中提取推理能力,并同时保持模型准确性和生成长度之间的平衡。
本文在一系列综合基准上评估了 DeepSeek-V3。尽管训练成本具有经济性,但综合评估表明,DeepSeek-V3-Base 已成为目前最强的开源基础模型,特别是在代码和数学方面。其聊天版本也优于其他开源模型,并在一系列标准和开放式基准上媲美领先的闭源模型。
最后,再次强调 DeepSeek-V3 的经济训练成本,如表 1 所示。
在预训练阶段,在每万亿 tokens 上训练 DeepSeek-V3 仅需 18 万 H800 GPU hour,即拥有 2048 个 H800 GPU 的集群上仅需 3.7 天。
因此,预训练阶段在不到两个月的时间内完成,耗时 266.4 万 GPU hour。结合 11.9 万 GPU hour 的上下文长度扩展和 5000 GPU hour 的后训练,DeepSeek-V3 的完整训练仅需 278.8 万 GPU hour。
假设 H800 GPU 的租用价格为每 GPU hour 2 美元,该模型的总训练成本仅为 557.6 万美元。
请注意,上述成本仅包括 DeepSeek-V3 的官方训练,不包括先前对架构、算法或数据的研究和消融实验相关成本。
贡献
3.1 架构:创新的负载均衡策略和训练目标
在 DeepSeek-V2 的高效架构基础上,率先采用了无辅助损失的负载均衡策略,最大限度地减少了因鼓励负载均衡而导致的性能下降。
研究了 multi-token 预测(MTP)目标,并证明其对模型性能有益。它还可用于推测解码以加速推理。


