一、背景
2025 年 1 月 20 日,杭州深度求索人工智能基础技术研究有限公司发布了高性能 AI 推理模型 DeepSeek R1。该模型在数学、代码和自然语言推理等任务上表现出色,性能与 OpenAI 的 o1 正式版相当。作为国产 AI 技术的重大突破,DeepSeek R1 以开源形式向全球开发者开放,遵循 MIT 协议,支持免费商用。
二、DeepSeek R1 的核心优势
强化学习驱动的推理能力:R1 在后训练阶段应用了强化学习技术(RLHF),无需大量监督微调数据即可显著提升推理能力,有效降低了训练成本。
长链推理与模型蒸馏:采用长链推理(Chain of Thought)技术,能够逐步分解复杂问题。同时支持模型蒸馏,可将 R1 强大的推理能力迁移到小型模型中,满足特定场景下的低延迟或低成本需求。
开源与灵活的许可证:遵循 MIT License 开源协议,允许自由使用、修改和商用,极大地推动了 AI 技术的普及与创新。
三、性能评测对比
3.1 DeepSeek-R1-Evaluation
对于所有模型,最大生成长度均设置为 32,768 个标记。对于需要采样的基准测试,我们使用 0.6 的温度值、0.95 的 top-p 值,并针对每个查询生成 64 个响应以估算 pass@1。
| Category | Benchmark (Metric) | Claude-3.5-Sonnet-1022 | GPT-4o 0513 | DeepSeek V3 | OpenAI o1-mini | OpenAI o1-1217 | DeepSeek R1 |
|---|---|---|---|---|---|---|---|
| Architecture | - | - | MoE | - | - | MoE | - |
| # Activated Params | - | - | 37B | - | - | 37B | - |
| # Total Params | - | - | 671B | - | - | 671B | - |
| English | MMLU (Pass@1) | 88.3 | 87.2 | 88.5 | 85.2 | 91.8 | 90.8 |
| MMLU-Redux (EM) | 88.9 | 88.0 | 89.1 | 86.7 | - | 92.9 | |
| MMLU-Pro (EM) | 78.0 | 72.6 | 75.9 | 80.3 | - | 84.0 | |
| DROP (3-shot F1) | 88.3 | 83.7 | 91.6 | 83.9 | 90.2 | 92.2 | |


