DeepSeek V3 正式发布：性能突破与开源生态解析

2024 年 12 月 26 日，DeepSeek 正式发布了其最新一代大型语言模型：DeepSeek-V3。

这一模型的发布不仅标志着 DeepSeek 在 AGI（人工通用智能）探索道路上的又一里程碑，也再次证明了其在开源 AI 领域的领先地位。从 V2.5 到 V3，DeepSeek 仅用了短短几个月的时间，便完成了从通用与代码能力融合到全面性能突破的跨越。

DeepSeek 的初心：探索 AGI 的本质

DeepSeek 始终秉持'投身于探索 AGI 的本质，不做中庸的事，带着好奇心，用最长期的眼光去回答最大的问题'的理念。这种长期主义的追求，使得 DeepSeek 在技术研发上不断突破，从 V2.5 的通用与代码能力融合，到 V3 的全面性能提升，每一步都彰显了其对技术创新的执着。

从 V2.5 到 V3：性能的全面飞跃

DeepSeek-V3 是一款拥有6710 亿参数的专家混合（MoE）模型，激活370 亿参数，基于14.8T token的预训练数据。

生成速度方面相比 V2.5 提升了 3 倍，从 20TPS 提升至惊人的 60TPS。实测回复速度极快。

在性能上，DeepSeek-V3 在多项基准测试中超越了 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型，并与GPT-4 和 Claude-3.5-Sonnet等顶尖闭源模型不相上下。尤其在数学、代码和中文任务上，V3 表现尤为突出，成为当前最强的开源模型。

技术创新：高效训练与推理

DeepSeek-V3 采用了多项创新技术，包括多头潜在注意力（MLA）架构、无辅助损失的负载均衡策略以及多 token 预测（MTP）目标。

1. 多头潜在注意力（MLA）架构

MLA 通过压缩 KV Cache 显著降低了显存占用，同时保持了长上下文的理解能力。这使得模型在处理超长文档或复杂对话时更加高效。

2. 专家混合（MoE）结构

模型采用稀疏 MoE 设计，激活 370 亿参数处理单次请求，而总参数量达到 6710 亿。这种设计在保证推理速度的同时，极大扩展了模型的知识容量和泛化能力。

3. 多 token 预测（MTP）

MTP 允许模型在一次前向传播中预测多个后续 token，进一步加速了自回归生成的过程，减少了延迟。

这些技术不仅提升了模型的推理效率，还大幅降低了训练成本。V3 的整个训练过程仅耗费了278.8 万 H800 GPU 小时，总成本约为557.6 万美元，远低于其他前沿大模型。

API 服务：价格调整与优惠

随着 V3 的发布，DeepSeek 调整了 API 服务价格。优惠期内（即日起至 2025 年 2 月 8 日），API 价格为每百万输入 tokens 0.1 元（缓存命中）/1 元（缓存未命中），每百万输出 tokens 2 元。优惠期结束后，价格将恢复至每百万输入 tokens 0.5 元（缓存命中）/2 元（缓存未命中），每百万输出 tokens 8 元。

时期	Token 类型	缓存命中	缓存未命中
优惠期内 (至 2025 年 2 月 8 日)	输入 tokens(每百万)	¥0.1	¥1
	输出 tokens(每百万)	¥2	¥2
优惠期后	输入 tokens(每百万)	¥0.5	¥2
	输出 tokens(每百万)	¥8	¥8

DeepSeek V3 正式发布：性能突破与开源生态解析

DeepSeek 的初心：探索 AGI 的本质

从 V2.5 到 V3：性能的全面飞跃

技术创新：高效训练与推理

1. 多头潜在注意力（MLA）架构

2. 专家混合（MoE）结构

3. 多 token 预测（MTP）

API 服务：价格调整与优惠

开源与社区支持

更多推荐文章

相关免费在线工具

实际应用场景与接入指南

1. 官方对话平台体验

2. API 能力与开发接入

3. 本地部署指南

结语：开源 AI 的新标杆

更多推荐文章

相关免费在线工具

DeepSeek V3 正式发布：性能突破与开源生态解析

DeepSeek 的初心：探索 AGI 的本质

从 V2.5 到 V3：性能的全面飞跃

技术创新：高效训练与推理

1. 多头潜在注意力（MLA）架构

2. 专家混合（MoE）结构

3. 多 token 预测（MTP）

API 服务：价格调整与优惠

开源与社区支持

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

实际应用场景与接入指南

1. 官方对话平台体验

2. API 能力与开发接入

3. 本地部署指南

结语：开源 AI 的新标杆

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具