DeepSeek-R1 与 Kimi-1.5 技术报告解读:大道至简的推理优化
近期,DeepSeek-R1 和 Kimi-1.5 的技术报告相继发布,两者在推理能力的构建上展现了高度一致的核心思路:大道至简。它们不再执着于复杂的中间过程监督,而是沿着最简单的思路做到极致,通过结果导向的奖励机制达成目标。这种设计哲学与 OpenAI o1 系列有着异曲同工之妙,即关注推理的最终结果是否正确,而非强行干预每一个推理步骤。
核心方法论:规则奖励 vs 过程奖励模型
DeepSeek 和 Kimi 的核心共识在于:关注推理的中间过程是否正确难以实现。因此,两者均倾向于采用基于规则的奖励(Rule-based Reward),确保奖励信号是准确且可验证的。这与 AlphaGo 系列的核心思想一脉相承,即结果至上。
对 PRM 路线的反思
传统的大模型推理增强往往依赖过程奖励模型(Process Reward Model, PRM)。然而,DeepSeek 在报告中反驳了 PRM 路线,主要基于以下三点理由:
- 细粒度定义困难:定义一个高质量的 fine-grain step 非常困难,需要明确每一步的逻辑标准。
- 标注扩展性差:很难确定一个 step 是否绝对正确。机器自动标注不准,人工标注无法 Scaling up。假设我们能雇博士生标注 10W 条高质量 CoT 数据,但能标 100W 条吗?1000W 条呢?正如 Scaling Law 所表达,想让模型达到新效果,数据量级往往是指数增长的。PRM 的数据成本将随模型能力提升而急剧上升。
- Reward Hacking 风险:一旦引入 PRM,模型容易针对奖励函数进行投机取巧(Reward Hacking),导致训练资源耗费增加且效果不稳定。
虽然目前一杆子打死 PRM 为时尚早,未来或许会有 Scaling PRM 数据的方案,但在当前阶段,对于小模型或冷启动场景,PRM 可能仍有价值,但对于追求极致推理能力的大模型,Rule-based Reward 更为稳健。
训练策略差异:两阶段 vs 单阶段监控
尽管殊途同归,两家团队的具体实现方案存在显著差异,反映了不同的工程权衡。
DeepSeek 的两阶段策略
DeepSeek 将推理模型的训练分为两个明确的阶段:
-
Step 1:学习推理(Zero-shot RL)
- 全程无标注数据参与,目标单一:让模型的 Reward 变高。
- 不纠结于模型格式错误或逻辑混乱等细节,只看 Reward 分数。
- 在此过程中,模型输出长度自然增长,反思能力开始涌现。
- 这类似于 GRPO(Group Relative Policy Optimization)的思路,通过强化学习直接优化最终得分。
-
Step 2:学习说话(SFT + RM)
- 类似于普通的 Post-training 流程。
- SFT 未被抛弃,除了 Rule-based Reward,Reward Model (RM) 也被请回。
- 引入 Reject Sampling 进一步筛选高质量数据。
- 利用千条冷启动数据、60W 拒绝采样数据和 20W 条非推理数据进行微调,解决格式和表达问题。
Kimi 的单阶段监控策略
Kimi 采取了一步到位的策略,在 Step 1 学习推理的过程中,时刻监控模型的说话能力是否正常。
- 严格监控指标:模型的输出长度、对每个 Prompt 的回答准确率等信息全程被监控。
- 防崩技巧:如果没有资源做 Zero-shot 训练,Kimi 的技巧更加实用。它分享了很多防止训练崩溃的细节,例如调整 Loss 函数、添加正则项等。
- 对比分析:DeepSeek 在 Step 2 阶段有详细的数据配置,但其他细节较少;Kimi 则更强调过程中的稳定性控制。如果训练中出现崩溃,Kimi 的方案是通过加训练技巧、改 Loss 救回来,而 DeepSeek 则是二阶段集中解决。
涌现能力:Aha Moment 与反思机制
除了 Rule-based Reward,DeepSeek 提到的 Aha Moment(顿悟时刻)——模型涌现出来的反思能力,引起了广泛关注。


