DeepSeek-V3 训练技术详解：架构、工程与后训练

DeepSeek-V3 以约 550 万美金成本实现媲美 Claude 3.5 的性能，核心创新在于 Multi-head Latent Attention 降低显存占用、DeepSeekMoE 稀疏架构及无损耗负载均衡。工程上通过 DualPipe 流水线并行、FP8 混合精度训练及通信优化提升效率。预训练采用 14.8 万亿 Token 数据并支持 128K 上下文。后训练结合 SFT 与 GRPO 强化学习对齐人类偏好。该模型开源发布，显著降低了大模型研发门槛，展现了高效能低成本的技术路线。

云间运维发布于 2025/2/6更新于 2026/7/2342 浏览

这两天，DeepSeek-V3 低调发布，在国际上展现了显著的技术实力：仅用约 550 万美金成本，取得了不输 Claude 3.5 的成绩，并选择开源。

下面，让我们以更加系统的方式，来看看 DeepSeek-V3 是如何炼成的。本文将从性能、架构、工程、预训练和后训练五个维度来拆解 V3，所用到的图表、数据源于技术报告《DeepSeek-V3 Technical Report》。

性能

DeepSeek-V3 的性能优势在各项基准测试中得到了充分验证。

DeepSeek-V3 性能对比图

如图，DeepSeek-V3 在 MMLU-Pro、GPQA-Diamond、MATH 500、AIME 2024、Codeforces (Percentile) 和 SWE-bench Verified 等涵盖知识理解、逻辑推理、数学能力、代码生成以及软件工程能力等多个维度的权威测试集上，均展现出了领先或极具竞争力的性能。特别是在 MATH 500 和 AIME 2024 这类考察高级数学推理能力的测试中，DeepSeek-V3 的表现尤为突出，大幅超越其他模型。

DeepSeek-V3 Base 模型对比

在与 DeepSeek-V2-Base、Qwen2.5 72B Base 和 LLaMA-3.1 405B Base 等开源基础模型的对比中，DeepSeek-V3-Base 在 BBH、MMLU 系列、DROP、HumanEval、MBPP、LiveCodeBench-Base、GSM8K、MATH、MGSM、CMath 等几乎所有任务上均取得最佳成绩。

DeepSeek-V3 指令微调后性能

经过指令微调后，DeepSeek-V3 的性能进一步提升。在与包括 GPT-4o、Claude-3.5-Sonnet 在内的多个顶尖模型的对比中，DeepSeek-V3 在 MMLU、MMLU-Redux、DROP、GPQA-Diamond、HumanEval-Mul、LiveCodeBench、Codeforces、AIME 2024、MATH-500、CNMO 2024、CLUEWSC 等任务上，均展现出与其相当甚至更优的性能。

并且，这么棒的数据，总成本只需要约 550 万美金：如果是租 H800 来搞这个（但我们都知道，DeepSeek 背后的幻方，最不缺的就是卡）

DeepSeek-V3 成本分析

架构

DeepSeek-V3 的这次发布，伴随三项创新：Multi-head Latent Attention (MLA)、DeepSeekMoE 架构以及无额外损耗的负载均衡策略。

DeepSeek-V3 架构图

Multi-head Latent Attention (MLA)：高效处理长文本

MLA 通过将 Key (K) 和 Value (V) 联合映射至低维潜空间向量 (cKV)，显著降低了 KV Cache 的大小，从而提升了长文本推理的效率。DeepSeek-V3 中 MLA 的 KV 压缩维度 (dc) 设置为 512，Query 压缩维度 (d') 设置为 1536，解耦 Key 的头维度 (dr) 设置为 64。这种设计在保证模型性能的同时，大幅减少了显存占用和计算开销。