DeepSeek-R1 与 Kimi-1.5 技术报告解读:大道至简的推理优化
近期,DeepSeek-R1 和 Kimi-1.5 的技术报告相继发布,两者在推理能力的构建上展现了高度一致的核心思路:大道至简。它们不再执着于复杂的中间过程监督,而是沿着最简单的思路做到极致,通过结果导向的奖励机制达成目标。这种设计哲学与 OpenAI o1 系列有着异曲同工之妙,即关注推理的最终结果是否正确,而非强行干预每一个推理步骤。
核心方法论:规则奖励 vs 过程奖励模型
DeepSeek 和 Kimi 的核心共识在于:关注推理的中间过程是否正确难以实现。因此,两者均倾向于采用基于规则的奖励(Rule-based Reward),确保奖励信号是准确且可验证的。这与 AlphaGo 系列的核心思想一脉相承,即结果至上。
对 PRM 路线的反思
传统的大模型推理增强往往依赖过程奖励模型(Process Reward Model, PRM)。然而,DeepSeek 在报告中反驳了 PRM 路线,主要基于以下三点理由:
- 细粒度定义困难:定义一个高质量的 fine-grain step 非常困难,需要明确每一步的逻辑标准。
- 标注扩展性差:很难确定一个 step 是否绝对正确。机器自动标注不准,人工标注无法 Scaling up。假设我们能雇博士生标注 10W 条高质量 CoT 数据,但能标 100W 条吗?1000W 条呢?正如 Scaling Law 所表达,想让模型达到新效果,数据量级往往是指数增长的。PRM 的数据成本将随模型能力提升而急剧上升。
- Reward Hacking 风险:一旦引入 PRM,模型容易针对奖励函数进行投机取巧(Reward Hacking),导致训练资源耗费增加且效果不稳定。
虽然目前一杆子打死 PRM 为时尚早,未来或许会有 Scaling PRM 数据的方案,但在当前阶段,对于小模型或冷启动场景,PRM 可能仍有价值,但对于追求极致推理能力的大模型,Rule-based Reward 更为稳健。
训练策略差异:两阶段 vs 单阶段监控
尽管殊途同归,两家团队的具体实现方案存在显著差异,反映了不同的工程权衡。
DeepSeek 的两阶段策略
DeepSeek 将推理模型的训练分为两个明确的阶段:
-
Step 1:学习推理(Zero-shot RL)
- 全程无标注数据参与,目标单一:让模型的 Reward 变高。
- 不纠结于模型格式错误或逻辑混乱等细节,只看 Reward 分数。
- 在此过程中,模型输出长度自然增长,反思能力开始涌现。
- 这类似于 GRPO(Group Relative Policy Optimization)的思路,通过强化学习直接优化最终得分。
-
Step 2:学习说话(SFT + RM)
- 类似于普通的 Post-training 流程。
- SFT 未被抛弃,除了 Rule-based Reward,Reward Model (RM) 也被请回。
- 引入 Reject Sampling 进一步筛选高质量数据。
- 利用千条冷启动数据、60W 拒绝采样数据和 20W 条非推理数据进行微调,解决格式和表达问题。
Kimi 的单阶段监控策略
Kimi 采取了一步到位的策略,在 Step 1 学习推理的过程中,时刻监控模型的说话能力是否正常。
- 严格监控指标:模型的输出长度、对每个 Prompt 的回答准确率等信息全程被监控。
- 防崩技巧:如果没有资源做 Zero-shot 训练,Kimi 的技巧更加实用。它分享了很多防止训练崩溃的细节,例如调整 Loss 函数、添加正则项等。
- 对比分析:DeepSeek 在 Step 2 阶段有详细的数据配置,但其他细节较少;Kimi 则更强调过程中的稳定性控制。如果训练中出现崩溃,Kimi 的方案是通过加训练技巧、改 Loss 救回来,而 DeepSeek 则是二阶段集中解决。
涌现能力:Aha Moment 与反思机制
除了 Rule-based Reward,DeepSeek 提到的 Aha Moment(顿悟时刻)——模型涌现出来的反思能力,引起了广泛关注。
从观察来看,这似乎是一种浑然天成的现象:输出长度在涨,Reward 在涨,不自然而然的就会反思了吗?
这就像小时候的考试,一开始写完就直接交卷,后来每次都把草稿纸写得更满才交卷。如果在草稿纸上画画,成绩不会有变化;如果是拿来检查,成绩自然会更好。现在观察到 Zero 模型的草稿纸写得更满了,成绩也更高了,那它除了学会'检查'好像也没别的可能性了。
关于 Zero 模型是如何涌现出反思能力的,可能存在两种解释:
- 预训练知识唤醒:靠着 Pretrain 里面学到过的一些'自我否定'的文本模式。
- 探索行为触发:在 Do_Sample 的时候偶尔探索到了'不对,等等'这些 Token。
检查的时候,是按照老思路重算一遍,还是换个思路算一遍,还是拿着答案倒推题干,迟早都会在 Explore 时自然而然学到的。这种反思能力的出现,标志着模型从简单的模式匹配向真正的逻辑推理迈出了一大步。
局限性与未来展望
尽管成果显著,DeepSeek 的报告仍有一些值得探讨的遗憾之处,主要集中在蒸馏方案与 RL 方案的对比上。
蒸馏 vs RL 的结论争议
报告草率地抛出了一个结论:小模型蒸馏更好,大模型用 Rule-based RL 更好。
很多人认为这句话如同 1+1=2 一样字面意思,模型能力不够时只能蒸馏。但说实话,没有数据和公式的支撑,很难随便信服这么笼统的一句话。这句话太像经典的'大模型小学习率,小模型大学习率',说了跟没说一样,不知道具体该怎么设置。
为了验证这一结论,理想的实验设计应该是:
- 选取 Qwen 所有 Size 的模型(至少能训 RL 且不崩的 Size)。
- 同时做 Zero 方案和蒸馏方案。
- 对比结果,绘制曲线,观察是不是 Zero 方案的优势随着模型 Size 的提升越来越明显。
遗憾的是,报告中并没有看见 Qwen-72B + 蒸馏、Qwen-72B + Zero、DeepSeek-V3 + 蒸馏这三个重量级模型的效果对比。此外,对 Pretrain 模型直接进行 Zero 训练,是因为做了实验这样效果更好?还是说一次偶然的尝试成功了?
对 RL Reasoning Scaling Law 的期待
DeepSeek 已经做了很多工作,如果能再发发力,应该能看到 RL-Reasoning-Scaling Law 这种东西。可惜报告里没有后续了。未来的研究可以关注:
- 不同规模模型的最佳训练路径:是否存在一个临界点,超过该点后 RL 优于蒸馏?
- 奖励函数的设计空间:Rule-based Reward 之外,是否有混合奖励机制能进一步提升性能?
- 推理成本的优化:随着输出长度增加,推理成本如何控制?
结语
去年九月份就有人告诉我们:**Don't Teach, Incentivize!**显然,DeepSeek 和 Kimi 是听进去了。虽然从业者之间彼此是竞争关系,但这波属实是国产大模型上大分,值得全员狂欢!
技术的进步往往源于对简单原则的坚持和对复杂问题的解构。DeepSeek-R1 和 Kimi-1.5 的成功证明了,在推理领域,有时候少即是多。通过简化奖励机制,专注于结果优化,我们得以窥见大模型智能涌现的真实面貌。未来,随着更多开源社区和企业的加入,相信我们会看到更多关于推理扩展律的实证研究,推动整个行业向更高效的智能体方向发展。