清华与港科大发布大模型强化推理技术最新全面综述
综述了大型语言模型在推理能力提升方面的最新进展。内容涵盖从自回归生成到引入思维概念的转变,监督式微调与强化学习在训练中的应用,以及测试时扩展策略如链式思考和 PRM 引导搜索。重点分析了 OpenAI o1 系列及开源复现项目的技术路径,并介绍了语言强化搜索、基于记忆的强化等增强技术。最后梳理了 LLM 推理基准的分类体系,为构建大型推理模型提供了理论参考与实践方向。

综述了大型语言模型在推理能力提升方面的最新进展。内容涵盖从自回归生成到引入思维概念的转变,监督式微调与强化学习在训练中的应用,以及测试时扩展策略如链式思考和 PRM 引导搜索。重点分析了 OpenAI o1 系列及开源复现项目的技术路径,并介绍了语言强化搜索、基于记忆的强化等增强技术。最后梳理了 LLM 推理基准的分类体系,为构建大型推理模型提供了理论参考与实践方向。

全面回顾了大型语言模型(LLMs)在推理能力提升方面的最新进展,从简单的自回归 token 生成到引入'思维(thought)'概念的转变,以及如何通过强化学习(RL)训练 LLMs 掌握推理过程,再到鼓励 LLMs 在测试时推理中使用更多 token 进行'思考',最终,训练时和测试时的扩展相结合——通往大型推理模型的道路。

SFT 是提升 LLMs 特定任务推理能力的关键步骤,通过标记数据使模型适应特定任务需求,但受限于数据成本、灾难性遗忘和计算成本等问题。
RL 作为一种替代框架,使模型通过试错和奖励信号学习最优策略,RLHF 和 RLAIF 是目前 LLMs 训练中的主导方法,分别依赖人类标注数据和原则进行训练。
在复杂推理任务中,基于 ORM 的训练需区分中间推理步骤的正确性和重要性,ReFT 和 VinePPO 等方法通过不同策略应对 ORM 的偏差问题,CPL 则通过高层次抽象计划内搜索增强泛化能力。

PRM 通过评估中间步骤优化模型行为,更符合人类偏好和任务要求,SELF-EXPLORE、MATH-SHEPHERD、DeepSeekMath 和 Scaling Automated Process Verifiers 等研究展示了 PRM 在数学和逻辑推理中的应用。
RFT 作为新兴技术,利用少量用户偏好数据和评分模型优化 LLMs 的多步推理能力,在数据效率和训练稳定性方面表现出色,为领域定制的专家 LLMs 开发提供了新途径。

测试时提示技术:研究人员发现,测试时的提示技术(如链式思考和树状思考)可以进一步增强 LLMs 的能力。与直接要求模型提供答案相比,引导模型在测试时进行明确的推理过程可以显著提高其性能。
结构化提示方法:如 ReAct 和最少到最多提示(Least-to-Most Prompting)等结构化提示方法,通过明确指导模型组织思考过程,使 LLMs 能够更可靠、更可解释地输出结果。
测试时计算开销:这些方法虽然增加了标记消耗和计算开销,但通过在测试时增强 LLMs 的推理能力和解决方案准确性,提供了一种不依赖于模型参数修改的改进方向。
PRM 的重要性:PRM(过程奖励模型)从稀疏的结果反馈转向详细的流程导向监督,不仅在训练阶段,也在测试阶段发挥重要作用。
OpenAI o1 系列模型:OpenAI 的 o1 系列模型是 PRM 高级应用的突出例子,通过在测试时增加计算资源,显著提升了模型的推理能力。
测试时扩展法则:新的测试时扩展法则表明,通过优化测试时计算策略,可以在各种推理任务中实现显著的性能提升,特别是在复杂问题解决场景中。

o1 模型的发布:2024 年 9 月,OpenAI 发布了 o1 模型,这是 AI 推理能力的一个重大进步,尤其在数学、编程和科学问题解决方面表现出色。
o3 模型的升级:2024 年 12 月 20 日,OpenAI 开放了 o3 模型的测试申请,被认为是具有博士级智能的升级版本。
关键研究成果:

概述:语言强化搜索(VRS)利用 LLMs 的预训练推理和语义能力,在测试时通过迭代反馈循环优化解决方案,无需额外训练。
应用场景:
概述:在开放性任务中,解决方案空间往往大幅扩展,简单的解决方案空间搜索效率低下。一些研究通过引入外部记忆模块来增强 LLM 代理的能力。
应用场景:
概述:设计代理系统在许多下游任务中发挥重要作用。测试时增强技术的一个重要分支是利用 LLMs 搜索代理系统。
搜索级别:


https://arxiv.org/pdf/2501.09686


微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online