清华与港科大发布大模型强化推理技术最新全面综述

全面回顾了大型语言模型（LLMs）在推理能力提升方面的最新进展，从简单的自回归 token 生成到引入'思维（thought）'概念的转变，以及如何通过强化学习（RL）训练 LLMs 掌握推理过程，再到鼓励 LLMs 在测试时推理中使用更多 token 进行'思考'，最终，训练时和测试时的扩展相结合——通往大型推理模型的道路。

展示标注 LLM 推理数据的不同范式

图：标注 LLM 推理数据范式

学习推理：监督式微调到强化微调

监督式微调（SFT）的重要性

SFT 是提升 LLMs 特定任务推理能力的关键步骤，通过标记数据使模型适应特定任务需求，但受限于数据成本、灾难性遗忘和计算成本等问题。

强化学习（RL）的崛起

RL 作为一种替代框架，使模型通过试错和奖励信号学习最优策略，RLHF 和 RLAIF 是目前 LLMs 训练中的主导方法，分别依赖人类标注数据和原则进行训练。

结果奖励模型（ORM）的挑战

在复杂推理任务中，基于 ORM 的训练需区分中间推理步骤的正确性和重要性，ReFT 和 VinePPO 等方法通过不同策略应对 ORM 的偏差问题，CPL 则通过高层次抽象计划内搜索增强泛化能力。

图：ORM 挑战与策略

过程奖励模型（PRM）的进步

PRM 通过评估中间步骤优化模型行为，更符合人类偏好和任务要求，SELF-EXPLORE、MATH-SHEPHERD、DeepSeekMath 和 Scaling Automated Process Verifiers 等研究展示了 PRM 在数学和逻辑推理中的应用。

强化微调（RFT）的潜力

RFT 作为新兴技术，利用少量用户偏好数据和评分模型优化 LLMs 的多步推理能力，在数据效率和训练稳定性方面表现出色，为领域定制的专家 LLMs 开发提供了新途径。

测试时扩展：从链式思考（CoTs）到 PRM 引导的搜索

图：测试时扩展技术

1. 通过提示引导深思熟虑的思考

测试时提示技术：研究人员发现，测试时的提示技术（如链式思考和树状思考）可以进一步增强 LLMs 的能力。与直接要求模型提供答案相比，引导模型在测试时进行明确的推理过程可以显著提高其性能。

结构化提示方法：如 ReAct 和最少到最多提示（Least-to-Most Prompting）等结构化提示方法，通过明确指导模型组织思考过程，使 LLMs 能够更可靠、更可解释地输出结果。

测试时计算开销：这些方法虽然增加了标记消耗和计算开销，但通过在测试时增强 LLMs 的推理能力和解决方案准确性，提供了一种不依赖于模型参数修改的改进方向。

2. PRM 引导的搜索

PRM 的重要性：PRM（过程奖励模型）从稀疏的结果反馈转向详细的流程导向监督，不仅在训练阶段，也在测试阶段发挥重要作用。

OpenAI o1 系列模型：OpenAI 的 o1 系列模型是 PRM 高级应用的突出例子，通过在测试时增加计算资源，显著提升了模型的推理能力。

清华与港科大发布大模型强化推理技术最新全面综述

展示标注 LLM 推理数据的不同范式

学习推理：监督式微调到强化微调

监督式微调（SFT）的重要性

强化学习（RL）的崛起

结果奖励模型（ORM）的挑战

过程奖励模型（PRM）的进步

强化微调（RFT）的潜力

测试时扩展：从链式思考（CoTs）到 PRM 引导的搜索

1. 通过提示引导深思熟虑的思考

2. PRM 引导的搜索

更多推荐文章

相关免费在线工具

通往大型推理模型的路径

1. OpenAI o1 系列的发展

2. 开源的大型推理模型尝试

其他测试时增强技术

1. 语言强化搜索（Verbal Reinforcement Search）

2. 基于记忆的强化（Memory-based Reinforcement）

3. 代理系统搜索（Agentic System Search）

LLM 推理基准的分类体系

更多推荐文章

相关免费在线工具

清华与港科大发布大模型强化推理技术最新全面综述

展示标注 LLM 推理数据的不同范式

学习推理：监督式微调到强化微调

监督式微调（SFT）的重要性

强化学习（RL）的崛起

结果奖励模型（ORM）的挑战

过程奖励模型（PRM）的进步

强化微调（RFT）的潜力

测试时扩展：从链式思考（CoTs）到 PRM 引导的搜索

1. 通过提示引导深思熟虑的思考

2. PRM 引导的搜索

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

通往大型推理模型的路径

1. OpenAI o1 系列的发展

2. 开源的大型推理模型尝试

其他测试时增强技术

1. 语言强化搜索（Verbal Reinforcement Search）

2. 基于记忆的强化（Memory-based Reinforcement）

3. 代理系统搜索（Agentic System Search）

LLM 推理基准的分类体系

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具