大型推理模型发展方向：利用 LLM 加强推理的调查报告

综述由AI生成大型推理模型通过结合训练时扩展与测试时计算提升推理能力。文章综述了数据构建从人工标注转向 LLM 自动化的趋势，分析了监督微调与强化学习在优化多步推理中的应用，特别是过程奖励模型的作用。探讨了测试时间缩放技术如 PRM 引导搜索及 OpenAI o1 系列进展。总结数学、逻辑、编码等评估基准，并讨论慢思考机制与未来开放问题。

极光发布于 2025/2/6更新于 2026/6/316 浏览

大型推理模型发展方向：使用大型语言模型加强推理的调查报告

1 简介

'如果语言存在严重的赤字，思维也会存在严重的赤字' —诺姆·乔姆斯基

借助深度学习的进展和大规模数据集的可用性，Large Language 模型（LLMs）已成为通往人工通用智能（AGI）的变革范式。这些庞大的 AI 模型通常采用 Transformer 架构，并在大规模文本语料库上进行预训练，完成下一个标记的预测任务。神经网络的扩展定律表明，随着模型大小和训练数据的增加，它们的性能显着提高。更重要的是，LLMs 还解锁了在较小模型中不存在的卓越新能力，例如上下文学习、角色扮演和类比推理。这些新能力使 LLMs 能够超越自然语言处理问题，促进更广泛范围的任务，如代码生成、机器人控制和自主智能体。

**在这些能力中，类人推理引起了学术界和工业界的极大关注，因为它展示了大型语言模型通过抽象和逻辑推理来推广到复杂实际问题的巨大潜力。**这一领域的一个显著突破是'链式思维 CoT'提示技术 [160]，它可以在测试时间引发步骤性的类人推理过程，而无需额外的训练。此类直观提示技术已被证明可以显著提高预训练语言模型的推理准确性，这也导致了更高级的提示技术的发展，如'思维树 ToT' [172]。这些方法引入了'思维'概念，将其作为代表类人推理过程中中间步骤的一系列标记。通过整合这样的中间步骤，大型语言模型的推理超越了简单的自回归标记生成，实现了更复杂的认知结构，如树搜索 [172] 和反思式推理 [180]。

最近，在学习推理方面出现了一个重要的研究趋势 [103]，旨在训练 LLMs 掌握类似人类的推理过程。在这一研究方向上的一个关键挑战是缺乏训练数据。人类标注往往成本过高，特别是对于已被证明可以有效监督 LLM 推理的逐步推理轨迹而言 [75]。为了解决这个问题，最近的研究已经从人类标注转向了基于 LLM 的搜索算法。这些方法利用外部验证推理问题，通过试错搜索自动生成准确的推理轨迹 [85]。更重要的是，研究人员提出在这些推理轨迹上训练过程奖励模型（PRMs）[183]。PRMs 可以提供稠密的、逐步的奖励，有助于 LLM 推理的强化学习。这些方法结合起来减少了对人类标注数据的依赖，并创造了一个有效整合'搜索'和'学习'的'强化循环'，这两种方法可以像 Richard Sutton 预测的那样无限扩展 [139]。因此，这种新颖的范式实现了 LLM 推理能力的扩展，随着训练时间的计算增加，为更先进的推理模型铺平了道路。

此外，最近的研究表明，扩大测试时间计算也可以提高 LLM 推理准确性。具体而言**，可以使用 PRMs 来指导 LLMs 评估和搜索中间的'想法'**，这鼓励 LLMs 在测试时计算期间生成深思熟虑的推理步骤，从而提高推理准确性。这种方法导致了测试时间扩展定律，预测在测试时为深思熟虑的推理花费更多令牌可以提高准确性。因此，基于 RL 的训练时间扩展和基于搜索的测试时间扩展结合起来展示了一种有前途的研究方向，可以充分释放 LLMs 的推理能力，即朝着大型推理模型的发展道路迈进。在这个研究方向上的一个重要里程碑是 OpenAI 的 o1 系列，它展示了这种方法的有效性，并回应了 OpenAI 将 LLMs 从对话人工智能（一级）转变为更强大的推理人工智能（二级）的五步路线图朝 AGI 发展的愿景。一些开源项目，如 OpenR、LLaMABerry 和 Journey Learning，致力于复制 OpenAI 的 o1 的强大推理能力，为开发大型推理模型提供了宝贵的见解。

在这项调查中，我们对最近在大型推理模型方面的研究工作进行了全面回顾。第二部分简要介绍了 LLM 推理背景。接下来的三节深入探讨了推动大型推理模型发展的关键技术组成部分。具体而言，第三节着重于训练数据构建，强调从人工标注转变为 LLM 驱动的自动搜索。第四节回顾了在增加训练时计算能力的情况下扩展 LLM 推理能力的强化学习方法，而第五节讨论了在测试时扩展的具体方法，重点放在 PRM 引导搜索上。在第六节中，我们分析了 OpenAI 的 o1 系列和其他开源项目的发展，探索大型推理模型的发展路径。第七节总结了额外的测试时增强技术，第八节回顾了推理基准。最后，我们通过讨论开放问题和未来研究方向来总结这项调查。

2 背景

2.1 预训练

**作为训练 LLMs 的基础阶段，有效的预训练对于培养推理能力至关重要。**在讨论 LLMs 推理的预训练之前，我们首先概述一般 LLMs 预训练的基本流程。通过预训练，LLMs 不仅获得核心语言知识，还获得多样化的世界知识，为先进能力和有效价值观对齐的出现奠定了坚实基础。通常，LLMs 的预训练依赖于高质量的文本语料库，包括广泛的网络内容、书籍、代码和其他类型的数据。利用这些丰富的文本语料库，LLMs 建立在变压器架构上，通过下一个标记预测任务进行训练。预训练后，LLMs 通常展现出出色的上下文学习能力，使它们能够利用其庞大的知识库生成连贯的文本，并对各种问题提供准确的答案。值得注意的是，预训练阶段在培养 LLMs 的推理能力方面发挥着关键作用。例如，研究表明，数据集中丰富的代码和数学内容是发展强大推理技能的关键基础。根据这些观察，新开发的 LLMs 开始引入精心设计的合成数据，以增强 LLMs 的推理能力。在预训练过程中，一个关键的挑战是在代码和数学数据与一般文本语料库之间平衡比例，以保持强大的一般语言能力，同时释放 LLMs 的推理潜力。

2.2 微调

通过预训练，语言模型可以通过上下文学习展现推理能力，而微调技术被广泛应用于实现语言模型的零次迁移和改进推理能力。这里，我们首先概述基本的微调过程，然后探讨其增强推理能力的潜力。正如 [104] 中所描述的，预训练阶段之后，语言模型进入了监督微调阶段（SFT），也被称为指导微调阶段。该阶段的主要目标是优化模型的输出风格，确保其响应与人类需求和实际应用相一致。通过在反映广泛的日常人类交互的各种指导数据集上训练，通常通过广泛和精心策划的手动注释和完善 [195] 来创建。随着 ChatGPT 的出现，出现了新的生成多样指导数据集的方法。这些方法包括直接从强大的语言模型中提取数据 [153, 167] 以及从现有语料库中自动构建大规模数据集的方法 [158, 32]。利用这些精心设计的指导微调数据集，微调过程不断使用下一个标记的预测目标，类似于预训练。然而，与预训练不同，微调主要计算答案的损失，通常忽略问题的损失。此外，已经显示出将包含思维链（CoT）[160] 推理和数学问题解决示例的数据集纳入微调中显著增强了语言模型的推理能力，使其成为一个活跃研究领域。遵循一般方面的做法，大多数当前方法利用从先进的大型推理模型中提取数据，然后通过微调来增强语言模型的推理能力，从而获得最终的大型推理模型。

大型推理模型发展方向：利用 LLM 加强推理的调查报告

大型推理模型发展方向：使用大型语言模型加强推理的调查报告

1 简介

2 背景

2.1 预训练

2.2 微调

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 对齐

2.4 提示 LLMs 进行高级推理

2.5 执行工作流程

3 数据构建：从人工标注到 LLM 自动化

3.1 人工标注

3.2 LLM 自动化结果标注

3.3 LLM 自动化过程注释

4 学会推理：从监督到强化微调

4.1 优化预训练语言模型：监督微调

4.2 优化预训练 LLM：强化学习

4.3 通过结果奖励模型 enhance 多步推理。

4.4 使用过程奖励模型（Process Reward Model ）增强多步推理

4.5 强化微调

5 测试时间缩放：从 CoTs 到 PRM 引导搜索

5.1 通过提示引发深思

5.2 PRM 引导搜索

6 通往大型推理模型的路径

6.1 OpenAI o1 系列的发展

6.2 大型推理模型的开源尝试

7 其他测试时间增强技术

7.1 口头强化搜索

7.2 基于记忆的强化学习

7.3 智能体系统搜索

7.4 摘要

8 评估基准

8.1 数学问题

8.2 逻辑问题

8.3 常识性问题

8.4 编码问题

8.5 智能体问题

9 讨论

9.1 最近进展中的启发

9.2 慢思考和推理

9.3 下游应用和开放问题

10 结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具