这两天,DeepSeek-V3 低调发布,在国际上展现了显著的技术实力:仅用约 550 万美金成本,取得了不输 Claude 3.5 的成绩,并选择开源。
下面,让我们以更加系统的方式,来看看 DeepSeek-V3 是如何炼成的。本文将从性能、架构、工程、预训练和后训练五个维度来拆解 V3,所用到的图表、数据源于技术报告《DeepSeek-V3 Technical Report》。
性能
DeepSeek-V3 的性能优势在各项基准测试中得到了充分验证。

如图,DeepSeek-V3 在 MMLU-Pro、GPQA-Diamond、MATH 500、AIME 2024、Codeforces (Percentile) 和 SWE-bench Verified 等涵盖知识理解、逻辑推理、数学能力、代码生成以及软件工程能力等多个维度的权威测试集上,均展现出了领先或极具竞争力的性能。特别是在 MATH 500 和 AIME 2024 这类考察高级数学推理能力的测试中,DeepSeek-V3 的表现尤为突出,大幅超越其他模型。

在与 DeepSeek-V2-Base、Qwen2.5 72B Base 和 LLaMA-3.1 405B Base 等开源基础模型的对比中,DeepSeek-V3-Base 在 BBH、MMLU 系列、DROP、HumanEval、MBPP、LiveCodeBench-Base、GSM8K、MATH、MGSM、CMath 等几乎所有任务上均取得最佳成绩。

经过指令微调后,DeepSeek-V3 的性能进一步提升。在与包括 GPT-4o、Claude-3.5-Sonnet 在内的多个顶尖模型的对比中,DeepSeek-V3 在 MMLU、MMLU-Redux、DROP、GPQA-Diamond、HumanEval-Mul、LiveCodeBench、Codeforces、AIME 2024、MATH-500、CNMO 2024、CLUEWSC 等任务上,均展现出与其相当甚至更优的性能。
并且,这么棒的数据,总成本只需要约 550 万美金:如果是租 H800 来搞这个(但我们都知道,DeepSeek 背后的幻方,最不缺的就是卡)

架构
DeepSeek-V3 的这次发布,伴随三项创新:Multi-head Latent Attention (MLA)、DeepSeekMoE 架构以及无额外损耗的负载均衡策略。

Multi-head Latent Attention (MLA):高效处理长文本
MLA 通过将 Key (K) 和 Value (V) 联合映射至低维潜空间向量 (cKV),显著降低了 KV Cache 的大小,从而提升了长文本推理的效率。DeepSeek-V3 中 MLA 的 KV 压缩维度 (dc) 设置为 512,Query 压缩维度 (d') 设置为 1536,解耦 Key 的头维度 (dr) 设置为 64。这种设计在保证模型性能的同时,大幅减少了显存占用和计算开销。















