跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

OpenRFT:基于强化微调实现大模型领域推理泛化

综述由AI生成OpenRFT 是由北京交通大学团队提出的一种强化微调解决方案,旨在解决大模型在少量领域样本下的推理泛化问题。该方法仅需 100 个样本,通过数据增强、基于 SFT 的模仿学习和基于 RL 的探索增强三个模块,在多个科学领域任务上将推理性能提升了 11% 以上,部分任务超越 o1-mini。核心技术包括利用 Tree Search 补齐推理过程、引入 Process Reward Model 进行过程监督,并强调了 Teacher 与 Student 模型行为状态空间一致性的重要性。相比传统 SFT,RFT 允许模型通过思考和试错学习,适用于已有推理基础模型的领域适配场景。

未来可期发布于 2025/2/6更新于 2026/6/326 浏览
OpenRFT:基于强化微调实现大模型领域推理泛化

OpenRFT:基于强化微调实现大模型领域推理泛化

OpenAI 近期的发布会展示了其在多模态与推理能力上的持续投入,其中关于大模型推理的讨论占据了重要篇幅。从技术演进的角度看,这一系列更新不仅聚焦于数学和编程等通用任务,更揭示了将推理能力泛化至特定领域的可能性。特别是强化微调(Reinforcement Fine-Tuning, RFT)技术的提出,为在少量领域样本下构建专用推理模型提供了新范式。

1. 强化微调的技术背景与意义

强化微调的核心价值在于打开了对推理基础模型的想象空间。早期的研究主要集中在单纯提升推理能力,而 RFT 则进一步思考如何基于推理基础模型实现领域泛化。与传统的监督微调(SFT)不同,RFT 不依赖机械模仿,而是允许模型基于推理能力进行思考和试错,有望实现类似人类的举一反三能力。

字节跳动此前提出的 ReFT 方法虽然也涉及推理学习,但其定位与 RFT 存在本质差异。ReFT 旨在从系统 1(直觉型)模型中学习一个系统 2(推理型)模型,需要大量包含推理过程的训练数据。而 RFT 的目的是从已有的系统 2 基础模型微调得到系统 2 领域模型。若将 ReFT 直接应用于 RFT 设置,由于策略模型和训练数据的分布不一致,往往会导致失效。

北京交通大学桑基韬教授团队在此前研究基础上,结合强化学习和树搜索等技术,提出了 OpenRFT 解决方案。该方案仅需 100 个领域样本,即可在扩散速率分析、矿物稳定性预测等任务上显著提升推理性能,部分任务提升超过 25%,甚至优于 o1-mini。

2. OpenRFT 核心方法论

实现 RFT 面临两大挑战:一是仅提供少量领域训练样本;二是这些样本通常不包含完整的推理过程数据。OpenRFT 针对这两个问题设计了三个关键模块。

2.1 数据增强模块

针对样本稀缺问题,团队采用了两种数据增强策略:

  1. 改写与打乱:通过改写问题和打乱选项顺序合成新的训练数据 Q',保持答案 A 不变。
  2. 领域知识增强:将领域训练样本以示例形式加入策略函数训练的 Prompt 中,利用隐性知识引导推理。

此外,团队还尝试了让模型生成全新问题但无答案的数据增强方法,旨在探索模型的知识边界。

2.2 基于 SFT 的模仿学习模块

该模块与 o1-Coder 的实现类似,主要区别在于树搜索使用的是更强的系统 2 推理模型,而非普通的系统 1 语言模型。通过知识蒸馏,由 Teacher 推理模型通过树搜索补齐推理过程,随后对策略模型进行监督微调,使其学会模仿高质量的推理路径。

2.3 基于 RL 的探索增强模块

这是提升性能的关键。领域训练样本作为示例加入策略模型的上下文中,通过示例提供的隐性领域知识引导推理行为。同时引入过程奖励函数(Process Reward Model, PRM),提高采样正确推理过程的概率。报告强调,理想情况下,Teacher 推理模型、PRM 和待微调的 Student 推理模型最好具有相同的行为状态空间,否则会对最终性能产生较大负面影响。

3. 科学问答领域任务实验

为了模拟真实的领域任务,团队使用了最近发布的科学问题评估集 SciKnowEval。该数据集包含五个等级,其中等级 3 专门评估模型的推理能力。OpenRFT 选择了等级 3 的 8 个领域任务,覆盖生物、化学、物理、材料四个学科,包括 GB1-fitness-prediction、retrosynthesis、chemical-calculation 等。

实验配置如下:

  • 训练样本数:每个领域任务 100 个。
  • 策略模型:Skywork-o1-Open-Llama-3.1-8B。
  • PRM 模型:Skywork-o1-Open-PRM-Qwen-2.5-7B。
  • 对比基线:GPT-4o-mini(代表系统 1)和 o1-mini(代表系统 2)。

实验结果显示,o1-mini 表现出最强的通用推理能力。但在某些领域知识起关键作用的任务上,GPT-4o-mini 凭借通用性表现优于 o1-mini。ReFT 无法直接应用于 RFT 设置,加入 PRM 过程监督后性能稍有提升。

OpenRFT 的不同版本对比表明,主要的性能提升来自于强化学习和过程监督,数据增强有一定辅助作用。值得注意的是,Few-shot ICL(上下文学习)目前并未起到明显作用,这可能是因为 SFT 和 RL 两个阶段的 Prompt 格式不一致导致的。有趣的是,ICL 提升较为明显的任务也是 GPT-4o-mini 表现最好的任务,说明 Few-shot ICL 对融合领域知识具有一定潜力。

3.1 样本数量与模型一致性影响

报告分析了领域样本数量对训练效果的影响。从 50 个样本增加到 400 个样本,提升幅度明显,说明当前方案仍较依赖训练样本数量。

关于 Teacher 与 Student 模型行为状态空间一致性的影响,实验发现用 QwQ-32B 替代 Skywork-o1-8B 合成推理过程数据时,微调后的模型性能甚至不如微调前。这提示我们在微调和应用推理模型时,需额外注意模型的行为和状态空间匹配问题。

4. 相关工作与技术展望

技术报告从系统 1 和系统 2 的角度总结了与强化微调相关的研究方向。

4.1 基于系统 1 模型获得系统 2 能力

包括 ReFT 在内,近期复现 o1 的很多工作都属于此类。相关工作分为 Prompting(如思维链、思维树)和基于学习两个分支。基于学习又包括 SFT 和 RL 两种方法。这些工作假定尚不存在推理模型,目的是训练获得一个推理模型。而 RFT 假定已经存在一个推理基础模型,目的是通过微调获得领域专用的推理模型。

4.2 对基础模型的微调

此前的微调聚焦系统 1 基础模型,使用 SFT 方法,通过记忆和模仿来学习。而 RFT 旨在微调系统 2 基础模型,可以通过思考、探索和试错来学习。作者认为 RFT 是基础模型能力达到一定程度后才可能发生的。

4.3 基于强化学习的微调

从方法上看,RFT 和 RLHF、强化蒸馏一样,都是基于强化学习对生成模型进行微调。相比基于监督学习的微调,这类方法有两个特点:

  1. 训练目标是优化策略函数最大化累积奖励,因而可以通过自适应探索更好地应对不确定性。
  2. 由于可以通过与环境交互,可以从很少量的高质量数据中学习,在学习过程中动态合成新的经验数据。

然而,RFT 与 RLHF、强化蒸馏等方法存在显著差异。从奖励函数来源看,RLHF 来源于人类偏好,强化蒸馏来源于 Teacher 模型,RFT 则来自领域专家数据。从策略模型看,RLHF 微调对象是 Base/SFT 模型,旨在对齐人类价值;强化蒸馏微调对象是 Student 模型,旨在模型压缩;而 RFT 微调对象是推理基础模型,旨在获得领域专有的推理能力。

5. 结论与未来方向

如同对 o1 的复现一样,对强化微调技术路线的探索会一直进行下去。报告最后给出了后续可以改进的两个方向:领域数据合成和领域知识嵌入。

对开放问题的奖励函数定义和行为模式的高效适配将是进一步提升强化微调性能的关键。目前 RFT 解决的还是多项选择形式的问题。试想,未来只提供某个领域的专业技术报告,推理模型如果能从中快速学习到领域专家的思考模式,获得领域推理能力,这将拥有更大的想象空间。

项目代码和模型已开源,地址:https://github.com/ADaM-BJTU/OpenRFT

目录

  1. OpenRFT:基于强化微调实现大模型领域推理泛化
  2. 1. 强化微调的技术背景与意义
  3. 2. OpenRFT 核心方法论
  4. 2.1 数据增强模块
  5. 2.2 基于 SFT 的模仿学习模块
  6. 2.3 基于 RL 的探索增强模块
  7. 3. 科学问答领域任务实验
  8. 3.1 样本数量与模型一致性影响
  9. 4. 相关工作与技术展望
  10. 4.1 基于系统 1 模型获得系统 2 能力
  11. 4.2 对基础模型的微调
  12. 4.3 基于强化学习的微调
  13. 5. 结论与未来方向
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Ubuntu 20.04 安装 Ollama 与 Open WebUI 部署大模型指南
  • 本地 LLM 模型与 Ollama、Python 集成实战
  • 若依 (RuoYi) 低代码框架深度解析与选型建议
  • 基于数据流架构扩展 RAG 提升大模型准确度
  • Arduino BLDC 机器人 IMU 角度读取与 PID 互补滤波控制
  • Stable Diffusion 1.5 皮革服装 LoRA 镜像部署实战
  • Flutter 全方位深入探索与实战指南
  • AIGC 联动 Photoshop 与 Spine 2D 实现 2D 角色骨骼动画拆件
  • AI 智能体:基于 OpenCode 搭建 Skills 环境与项目实战开发
  • 大模型工作岗位解析与项目经理职责详解
  • 无人机结构设计核心要点解析
  • C++ 模拟实现二叉搜索树
  • 大模型提示工程 (Prompt Engineering) 核心策略与实战
  • 45 岁程序员求职困境:技术精湛为何难获面试机会
  • 混沌工程开源平台解析与测试实践指南
  • 数据结构基础:树的概念与结构详解
  • AI 产品经理转型指南:核心能力与学习路径
  • Python 网络爬虫技术入门与实战指南
  • 基于 Python Flask 的电影推荐与票房预测系统
  • 向量数据库:概念、原理与核心应用场景

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online