OpenRFT：基于强化微调实现大模型领域推理泛化

OpenAI 近期的发布会展示了其在多模态与推理能力上的持续投入，其中关于大模型推理的讨论占据了重要篇幅。从技术演进的角度看，这一系列更新不仅聚焦于数学和编程等通用任务，更揭示了将推理能力泛化至特定领域的可能性。特别是强化微调（Reinforcement Fine-Tuning, RFT）技术的提出，为在少量领域样本下构建专用推理模型提供了新范式。

1. 强化微调的技术背景与意义

强化微调的核心价值在于打开了对推理基础模型的想象空间。早期的研究主要集中在单纯提升推理能力，而 RFT 则进一步思考如何基于推理基础模型实现领域泛化。与传统的监督微调（SFT）不同，RFT 不依赖机械模仿，而是允许模型基于推理能力进行思考和试错，有望实现类似人类的举一反三能力。

字节跳动此前提出的 ReFT 方法虽然也涉及推理学习，但其定位与 RFT 存在本质差异。ReFT 旨在从系统 1（直觉型）模型中学习一个系统 2（推理型）模型，需要大量包含推理过程的训练数据。而 RFT 的目的是从已有的系统 2 基础模型微调得到系统 2 领域模型。若将 ReFT 直接应用于 RFT 设置，由于策略模型和训练数据的分布不一致，往往会导致失效。

北京交通大学桑基韬教授团队在此前研究基础上，结合强化学习和树搜索等技术，提出了 OpenRFT 解决方案。该方案仅需 100 个领域样本，即可在扩散速率分析、矿物稳定性预测等任务上显著提升推理性能，部分任务提升超过 25%，甚至优于 o1-mini。

2. OpenRFT 核心方法论

实现 RFT 面临两大挑战：一是仅提供少量领域训练样本；二是这些样本通常不包含完整的推理过程数据。OpenRFT 针对这两个问题设计了三个关键模块。

2.1 数据增强模块

针对样本稀缺问题，团队采用了两种数据增强策略：

改写与打乱：通过改写问题和打乱选项顺序合成新的训练数据 Q'，保持答案 A 不变。
领域知识增强：将领域训练样本以示例形式加入策略函数训练的 Prompt 中，利用隐性知识引导推理。

此外，团队还尝试了让模型生成全新问题但无答案的数据增强方法，旨在探索模型的知识边界。

2.2 基于 SFT 的模仿学习模块

该模块与 o1-Coder 的实现类似，主要区别在于树搜索使用的是更强的系统 2 推理模型，而非普通的系统 1 语言模型。通过知识蒸馏，由 Teacher 推理模型通过树搜索补齐推理过程，随后对策略模型进行监督微调，使其学会模仿高质量的推理路径。

2.3 基于 RL 的探索增强模块

这是提升性能的关键。领域训练样本作为示例加入策略模型的上下文中，通过示例提供的隐性领域知识引导推理行为。同时引入过程奖励函数（Process Reward Model, PRM），提高采样正确推理过程的概率。报告强调，理想情况下，Teacher 推理模型、PRM 和待微调的 Student 推理模型最好具有相同的行为状态空间，否则会对最终性能产生较大负面影响。

3. 科学问答领域任务实验

为了模拟真实的领域任务，团队使用了最近发布的科学问题评估集 SciKnowEval。该数据集包含五个等级，其中等级 3 专门评估模型的推理能力。OpenRFT 选择了等级 3 的 8 个领域任务，覆盖生物、化学、物理、材料四个学科，包括 GB1-fitness-prediction、retrosynthesis、chemical-calculation 等。

实验配置如下：

训练样本数：每个领域任务 100 个。
策略模型：Skywork-o1-Open-Llama-3.1-8B。
PRM 模型：Skywork-o1-Open-PRM-Qwen-2.5-7B。
对比基线：GPT-4o-mini（代表系统 1）和 o1-mini（代表系统 2）。

实验结果显示，o1-mini 表现出最强的通用推理能力。但在某些领域知识起关键作用的任务上，GPT-4o-mini 凭借通用性表现优于 o1-mini。ReFT 无法直接应用于 RFT 设置，加入 PRM 过程监督后性能稍有提升。

OpenRFT 的不同版本对比表明，主要的性能提升来自于强化学习和过程监督，数据增强有一定辅助作用。值得注意的是，Few-shot ICL（上下文学习）目前并未起到明显作用，这可能是因为 SFT 和 RL 两个阶段的 Prompt 格式不一致导致的。有趣的是，ICL 提升较为明显的任务也是 GPT-4o-mini 表现最好的任务，说明 Few-shot ICL 对融合领域知识具有一定潜力。

3.1 样本数量与模型一致性影响

报告分析了领域样本数量对训练效果的影响。从 50 个样本增加到 400 个样本，提升幅度明显，说明当前方案仍较依赖训练样本数量。

关于 Teacher 与 Student 模型行为状态空间一致性的影响，实验发现用 QwQ-32B 替代 Skywork-o1-8B 合成推理过程数据时，微调后的模型性能甚至不如微调前。这提示我们在微调和应用推理模型时，需额外注意模型的行为和状态空间匹配问题。

4. 相关工作与技术展望

技术报告从系统 1 和系统 2 的角度总结了与强化微调相关的研究方向。

4.1 基于系统 1 模型获得系统 2 能力

包括 ReFT 在内，近期复现 o1 的很多工作都属于此类。相关工作分为 Prompting（如思维链、思维树）和基于学习两个分支。基于学习又包括 SFT 和 RL 两种方法。这些工作假定尚不存在推理模型，目的是训练获得一个推理模型。而 RFT 假定已经存在一个推理基础模型，目的是通过微调获得领域专用的推理模型。

4.2 对基础模型的微调

此前的微调聚焦系统 1 基础模型，使用 SFT 方法，通过记忆和模仿来学习。而 RFT 旨在微调系统 2 基础模型，可以通过思考、探索和试错来学习。作者认为 RFT 是基础模型能力达到一定程度后才可能发生的。

4.3 基于强化学习的微调

从方法上看，RFT 和 RLHF、强化蒸馏一样，都是基于强化学习对生成模型进行微调。相比基于监督学习的微调，这类方法有两个特点：

训练目标是优化策略函数最大化累积奖励，因而可以通过自适应探索更好地应对不确定性。
由于可以通过与环境交互，可以从很少量的高质量数据中学习，在学习过程中动态合成新的经验数据。

然而，RFT 与 RLHF、强化蒸馏等方法存在显著差异。从奖励函数来源看，RLHF 来源于人类偏好，强化蒸馏来源于 Teacher 模型，RFT 则来自领域专家数据。从策略模型看，RLHF 微调对象是 Base/SFT 模型，旨在对齐人类价值；强化蒸馏微调对象是 Student 模型，旨在模型压缩；而 RFT 微调对象是推理基础模型，旨在获得领域专有的推理能力。

5. 结论与未来方向

如同对 o1 的复现一样，对强化微调技术路线的探索会一直进行下去。报告最后给出了后续可以改进的两个方向：领域数据合成和领域知识嵌入。

对开放问题的奖励函数定义和行为模式的高效适配将是进一步提升强化微调性能的关键。目前 RFT 解决的还是多项选择形式的问题。试想，未来只提供某个领域的专业技术报告，推理模型如果能从中快速学习到领域专家的思考模式，获得领域推理能力，这将拥有更大的想象空间。

项目代码和模型已开源，地址：https://github.com/ADaM-BJTU/OpenRFT