NeurIPS 2024 清华与加州理工提出强化自训练方法 ReST-MCTS*

清华大学与加州理工学院在 NeurIPS 2024 提出强化自训练方法 ReST-MCTS*。该方法利用树搜索 MCTS* 指导过程奖励，无需密集人工标注即可自动获取可靠推理路径。实验显示其在数学和科学推理任务上优于 CoT 和 Tree-of-Thought 基线，并能通过多轮迭代增强大语言模型性能。局限性在于泛化性需验证及价值模型规模扩展。

王者发布于 2025/2/7更新于 2026/6/224 浏览

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*

大语言模型（LLM）的自训练（self-training），是验证 Scaling Law 能否继续奏效的关键方法之一。

然而，由于「错误或无用的中间奖励信号」，现有自训练方法通常会产生低质量的微调训练集（如不正确的规划或中间推理），尽管这可能不会影响 LLM 在一些任务中的正确性，但却会限制 LLM 微调复杂任务的最终性能。

语言模型生成的错误或者无用的中间推理步骤，也可能产生正确的解题思路。也就是说，即使推理路径产生正确的解题思路，也不一定意味着整个路径是准确的。

解决方法之一是使用价值函数或者奖励模型来验证推理路径的正确性，然后作为自训练的学习信号。然而，训练一个可靠的奖励模型来验证推理路径中的每一步，通常依赖于密集的人类标注（每个推理步骤），并不能很好地扩展。

如今，来自清华大学知识工程研究室（KEG）和加州理工学院的联合研究团队解决了这一难题。

他们开发的强化自训练方法 ReST-MCTS*，通过树搜索 MCTS* 指导过程奖励，既可以自动获取可靠的推理路径，也能有效地利用奖励信号进行验证和 LLM 自训练。

ReST-MCTS* 方法示意图

论文链接：https://arxiv.org/abs/2406.03816
GitHub 地址：https://github.com/THUDM/ReST-MCTS
项目地址：https://rest-mcts.github.io/

具体来说，ReST-MCTS* 通过基于树搜索的强化学习规避了用于训练过程奖励的每步人工标注：在给定 Oracle 最终正确答案的情况下，ReST-MCTS* 能够通过估算每一步有助于得出正确答案的概率，推断出正确的过程奖励。这些推断出的奖励既是进一步完善过程奖励模型的价值目标，也有助于为策略模型的自训练选择高质量的轨迹。

实验结果表明，在相同的搜索预算下，ReST-MCTS* 中的树搜索策略比 LLM 推理基线（如 CoT + Best-of-N 和 Tree-of-Thought）实现了更高的准确率；另外，将这种树搜索策略搜索到的轨迹作为训练数据，可以在多次迭代中持续增强 LLM，优于 Self-Rewarding LM 等其他自训练算法。

研究方法

为了提高模型自动获取可靠推理路径的能力，该研究旨在探索基于模型自动获取高质量推理路径以优化奖励信号和模型自训练性能过程中的关键难点与挑战。

推断过程奖励的过程以及如何进行过程奖励引导树搜索

图｜推断过程奖励的过程以及如何进行过程奖励引导树搜索（左），过程奖励模型（PRM）和策略模型（Policy Model）的自训练（右）。

该研究的四个核心组件是：

全新的搜索算法 MCTS*：在过程奖励模型（Process Reward Model，PRM）的指导下，在足够的次数内执行树搜索。
过程奖励模型 PRM：用于评估任何部分解答过程的质量并且指导 MCTS*。
策略模型：可以为每个问题生成多个中间推理步骤。
LLM 自我训练：使用 MCTS* 收集推理路径，在正样本上训练策略模型，并在所有生成的路径上训练过程奖赏模型。

首先，针对现有方法的局限性，研究团队建立了一个全新的搜索算法 MCTS*，该算法是蒙特卡罗树搜索（MCTS）的一个变体，使用每个推理步骤的质量值作为一个训练好的基于 LLM 的过程奖励模型的价值目标，并为 MCTS 提供指导，能够通过足够的部署次数自动标注每个中间节点的过程奖励。

此外，他们还提出了一个过程奖励模型（PRM），该模型能够准确地计算每个推理步骤的奖励值。该研究将研究过程奖励引导与树搜索相结合，以探索有效的解空间并合成高质量的轨迹。该研究首先计算对于每个树节点在每棵树中得到正确答案所需的最小推理步骤数，至少有一条推理路径（包括根）。然后，该研究使用过程值的硬估计方法计算奖励值，这意味着一个推理步骤如果能得到每棵树中正确的答案，就被认为是正确的。使用最小推理距离和奖励值，该研究能够推导出在一个正确推理路径上或附近的每个节点的部分解的值。对于每个节点，将至少有一个正确的路径和相关的前进步骤。当推理距离设置为相同的上一步推理距离时，该研究可以使用部分解答过程的质量值的计算过程推导出质量值和加权奖励。该研究从根节点开始更新所有奖励和值，并且收集它们形成成对的新数据集。该数据集用于在下一个迭代中训练过程奖励模型。注意，在上述过程中搜索树会被修剪并且验证推理轨迹。