全面回顾了大型语言模型(LLMs)在推理能力提升方面的最新进展,从简单的自回归 token 生成到引入'思维(thought)'概念的转变,以及如何通过强化学习(RL)训练 LLMs 掌握推理过程,再到鼓励 LLMs 在测试时推理中使用更多 token 进行'思考',最终,训练时和测试时的扩展相结合——通往大型推理模型的道路。
展示标注 LLM 推理数据的不同范式

学习推理:监督式微调到强化微调
监督式微调(SFT)的重要性
SFT 是提升 LLMs 特定任务推理能力的关键步骤,通过标记数据使模型适应特定任务需求,但受限于数据成本、灾难性遗忘和计算成本等问题。
强化学习(RL)的崛起
RL 作为一种替代框架,使模型通过试错和奖励信号学习最优策略,RLHF 和 RLAIF 是目前 LLMs 训练中的主导方法,分别依赖人类标注数据和原则进行训练。
结果奖励模型(ORM)的挑战
在复杂推理任务中,基于 ORM 的训练需区分中间推理步骤的正确性和重要性,ReFT 和 VinePPO 等方法通过不同策略应对 ORM 的偏差问题,CPL 则通过高层次抽象计划内搜索增强泛化能力。

过程奖励模型(PRM)的进步
PRM 通过评估中间步骤优化模型行为,更符合人类偏好和任务要求,SELF-EXPLORE、MATH-SHEPHERD、DeepSeekMath 和 Scaling Automated Process Verifiers 等研究展示了 PRM 在数学和逻辑推理中的应用。
强化微调(RFT)的潜力
RFT 作为新兴技术,利用少量用户偏好数据和评分模型优化 LLMs 的多步推理能力,在数据效率和训练稳定性方面表现出色,为领域定制的专家 LLMs 开发提供了新途径。
测试时扩展:从链式思考(CoTs)到 PRM 引导的搜索

1. 通过提示引导深思熟虑的思考
测试时提示技术:研究人员发现,测试时的提示技术(如链式思考和树状思考)可以进一步增强 LLMs 的能力。与直接要求模型提供答案相比,引导模型在测试时进行明确的推理过程可以显著提高其性能。
结构化提示方法:如 ReAct 和最少到最多提示(Least-to-Most Prompting)等结构化提示方法,通过明确指导模型组织思考过程,使 LLMs 能够更可靠、更可解释地输出结果。
测试时计算开销:这些方法虽然增加了标记消耗和计算开销,但通过在测试时增强 LLMs 的推理能力和解决方案准确性,提供了一种不依赖于模型参数修改的改进方向。
2. PRM 引导的搜索
PRM 的重要性:PRM(过程奖励模型)从稀疏的结果反馈转向详细的流程导向监督,不仅在训练阶段,也在测试阶段发挥重要作用。
OpenAI o1 系列模型:OpenAI 的 o1 系列模型是 PRM 高级应用的突出例子,通过在测试时增加计算资源,显著提升了模型的推理能力。






