DeepSeek-R1 与 Kimi-1.5 技术报告解读：大道至简的推理优化

近期，DeepSeek-R1 和 Kimi-1.5 的技术报告相继发布，两者在推理能力的构建上展现了高度一致的核心思路：大道至简。它们不再执着于复杂的中间过程监督，而是沿着最简单的思路做到极致，通过结果导向的奖励机制达成目标。这种设计哲学与 OpenAI o1 系列有着异曲同工之妙，即关注推理的最终结果是否正确，而非强行干预每一个推理步骤。

核心方法论：规则奖励 vs 过程奖励模型

DeepSeek 和 Kimi 的核心共识在于：关注推理的中间过程是否正确难以实现。因此，两者均倾向于采用基于规则的奖励（Rule-based Reward），确保奖励信号是准确且可验证的。这与 AlphaGo 系列的核心思想一脉相承，即结果至上。

对 PRM 路线的反思

传统的大模型推理增强往往依赖过程奖励模型（Process Reward Model, PRM）。然而，DeepSeek 在报告中反驳了 PRM 路线，主要基于以下三点理由：

细粒度定义困难：定义一个高质量的 fine-grain step 非常困难，需要明确每一步的逻辑标准。
标注扩展性差：很难确定一个 step 是否绝对正确。机器自动标注不准，人工标注无法 Scaling up。假设我们能雇博士生标注 10W 条高质量 CoT 数据，但能标 100W 条吗？1000W 条呢？正如 Scaling Law 所表达，想让模型达到新效果，数据量级往往是指数增长的。PRM 的数据成本将随模型能力提升而急剧上升。
Reward Hacking 风险：一旦引入 PRM，模型容易针对奖励函数进行投机取巧（Reward Hacking），导致训练资源耗费增加且效果不稳定。

虽然目前一杆子打死 PRM 为时尚早，未来或许会有 Scaling PRM 数据的方案，但在当前阶段，对于小模型或冷启动场景，PRM 可能仍有价值，但对于追求极致推理能力的大模型，Rule-based Reward 更为稳健。

训练策略差异：两阶段 vs 单阶段监控

尽管殊途同归，两家团队的具体实现方案存在显著差异，反映了不同的工程权衡。

DeepSeek 的两阶段策略

DeepSeek 将推理模型的训练分为两个明确的阶段：

Step 1：学习推理（Zero-shot RL）
- 全程无标注数据参与，目标单一：让模型的 Reward 变高。
- 不纠结于模型格式错误或逻辑混乱等细节，只看 Reward 分数。
- 在此过程中，模型输出长度自然增长，反思能力开始涌现。
- 这类似于 GRPO（Group Relative Policy Optimization）的思路，通过强化学习直接优化最终得分。
Step 2：学习说话（SFT + RM）
- 类似于普通的 Post-training 流程。
- SFT 未被抛弃，除了 Rule-based Reward，Reward Model (RM) 也被请回。
- 引入 Reject Sampling 进一步筛选高质量数据。
- 利用千条冷启动数据、60W 拒绝采样数据和 20W 条非推理数据进行微调，解决格式和表达问题。

Kimi 的单阶段监控策略

Kimi 采取了一步到位的策略，在 Step 1 学习推理的过程中，时刻监控模型的说话能力是否正常。

严格监控指标：模型的输出长度、对每个 Prompt 的回答准确率等信息全程被监控。
防崩技巧：如果没有资源做 Zero-shot 训练，Kimi 的技巧更加实用。它分享了很多防止训练崩溃的细节，例如调整 Loss 函数、添加正则项等。
对比分析：DeepSeek 在 Step 2 阶段有详细的数据配置，但其他细节较少；Kimi 则更强调过程中的稳定性控制。如果训练中出现崩溃，Kimi 的方案是通过加训练技巧、改 Loss 救回来，而 DeepSeek 则是二阶段集中解决。

涌现能力：Aha Moment 与反思机制

除了 Rule-based Reward，DeepSeek 提到的 Aha Moment（顿悟时刻）——模型涌现出来的反思能力，引起了广泛关注。

DeepSeek-R1 与 Kimi-1.5 技术报告解读：大道至简的推理优化