2024 年 12 月 26 日,DeepSeek 正式发布了其最新一代大型语言模型:DeepSeek-V3。
这一模型的发布不仅标志着 DeepSeek 在 AGI(人工通用智能)探索道路上的又一里程碑,也再次证明了其在开源 AI 领域的领先地位。从 V2.5 到 V3,DeepSeek 仅用了短短几个月的时间,便完成了从通用与代码能力融合到全面性能突破的跨越。
DeepSeek 的初心:探索 AGI 的本质
DeepSeek 始终秉持'投身于探索 AGI 的本质,不做中庸的事,带着好奇心,用最长期的眼光去回答最大的问题'的理念。这种长期主义的追求,使得 DeepSeek 在技术研发上不断突破,从 V2.5 的通用与代码能力融合,到 V3 的全面性能提升,每一步都彰显了其对技术创新的执着。
从 V2.5 到 V3:性能的全面飞跃
DeepSeek-V3 是一款拥有6710 亿参数的专家混合(MoE)模型,激活370 亿参数,基于14.8T token的预训练数据。
生成速度方面相比 V2.5 提升了 3 倍,从 20TPS 提升至惊人的 60TPS。实测回复速度极快。
在性能上,DeepSeek-V3 在多项基准测试中超越了 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型,并与GPT-4 和 Claude-3.5-Sonnet等顶尖闭源模型不相上下。尤其在数学、代码和中文任务上,V3 表现尤为突出,成为当前最强的开源模型。
技术创新:高效训练与推理
DeepSeek-V3 采用了多项创新技术,包括多头潜在注意力(MLA)架构、无辅助损失的负载均衡策略以及多 token 预测(MTP)目标。
1. 多头潜在注意力(MLA)架构
MLA 通过压缩 KV Cache 显著降低了显存占用,同时保持了长上下文的理解能力。这使得模型在处理超长文档或复杂对话时更加高效。
2. 专家混合(MoE)结构
模型采用稀疏 MoE 设计,激活 370 亿参数处理单次请求,而总参数量达到 6710 亿。这种设计在保证推理速度的同时,极大扩展了模型的知识容量和泛化能力。
3. 多 token 预测(MTP)
MTP 允许模型在一次前向传播中预测多个后续 token,进一步加速了自回归生成的过程,减少了延迟。
这些技术不仅提升了模型的推理效率,还大幅降低了训练成本。V3 的整个训练过程仅耗费了278.8 万 H800 GPU 小时,总成本约为557.6 万美元,远低于其他前沿大模型。
API 服务:价格调整与优惠
随着 V3 的发布,DeepSeek 调整了 API 服务价格。优惠期内(即日起至 2025 年 2 月 8 日),API 价格为每百万输入 tokens 0.1 元(缓存命中)/1 元(缓存未命中),每百万输出 tokens 2 元。优惠期结束后,价格将恢复至每百万输入 tokens 0.5 元(缓存命中)/2 元(缓存未命中),每百万输出 tokens 8 元。
| 时期 | Token 类型 | 缓存命中 | 缓存未命中 |
|---|---|---|---|
| 优惠期内 (至 2025 年 2 月 8 日) | 输入 tokens(每百万) | ¥0.1 | ¥1 |
| 输出 tokens(每百万) | ¥2 | ¥2 | |
| 优惠期后 | 输入 tokens(每百万) | ¥0.5 | ¥2 |
| 输出 tokens(每百万) | ¥8 | ¥8 |


