OpenAI O1 模型复现思想与多模态大模型在数学推理中的应用总结
多模态大模型在数学推理领域面临视觉提取、跨领域泛化及错误纠正等挑战。本文综述了相关基准与方法,提出推理器、增强器和规划器三种范式。针对 OpenAI O1 模型,分析了知识蒸馏、提示工程及强化学习等多种复现方案,重点探讨了策略初始化、奖励设计、搜索算法与学习机制四个关键组件,为理解大模型推理能力的演进提供了技术路线图。

多模态大模型在数学推理领域面临视觉提取、跨领域泛化及错误纠正等挑战。本文综述了相关基准与方法,提出推理器、增强器和规划器三种范式。针对 OpenAI O1 模型,分析了知识蒸馏、提示工程及强化学习等多种复现方案,重点探讨了策略初始化、奖励设计、搜索算法与学习机制四个关键组件,为理解大模型推理能力的演进提供了技术路线图。

在多模态大型语言模型(MLLMs)时代,数学推理是一个极具挑战性且重要的研究方向。解决这一问题需要克服多个层面的困难。
首先,数学问题往往涉及复杂的视觉内容提取与推理,例如图表、表格或几何图形。当前模型在处理三维几何解释或分析不规则结构表格等复杂视觉细节时仍存在显著短板。

其次,现实世界的数学推理不仅限于文本和视觉,还可能涉及音频解释、交互式问题解决环境或动态模拟。当前模型在处理这些多样化输入源方面的能力较为有限,难以适应真实场景的复杂性。
此外,数学推理涵盖代数、几何、图表分析和常识等多个领域,每个领域都有其特定的问题解决要求。现有模型通常在一个特定领域表现良好,但缺乏跨领域的泛化能力,导致在不同类型题目间切换时性能波动较大。
同时,数学推理过程中涉及多种类型的错误,包括计算错误、逻辑不一致和问题误解。当前模型缺乏有效检测和纠正这些错误的能力,这可能导致推理过程中的错误累积,最终影响答案的正确性。
最后,现有的基准测试和模型评估常常忽视现实教育情境,例如学生如何使用草稿(如手写笔记或图表)来辅助解决问题。这些现实元素对于理解人类如何进行数学推理至关重要,也是提升模型实用性的关键。
针对上述挑战,近期工作《A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges》对多模态大模型在数学推理领域的进展进行了综述,并提出了三种 LLM 应用范式:

推理器利用 LLMs 自身的推理能力直接解决问题。典型策略包括结合多步推理的步骤级和路径级策略。例如,Math-SHEPHERD 作为一个过程导向的数学验证器,能够为 LLMs 输出的每一步分配奖励分数,从而引导模型生成更准确的中间步骤。
增强器通过数据增强技术提高模型性能。方法包括在训练过程中引入扰动和随机掩盖思维链中的标记来增强输入鲁棒性。Math-Genie 则通过从小规模数据集中迭代创建新解决方案,生成多样且可靠的数学问题和解决方案,从而丰富训练数据分布。
规划器协调多个模型或工具以协同解决问题。例如,使用自然语言理由和基于程序的工具序列协同解决数学问题。这种方法允许模型调用外部计算器或代码解释器来处理精确计算,弥补纯文本模型的数值弱点。

目前已有专门针对数学推理的大模型列表,涵盖了从基础模型到专用微调模型的各种尝试,展示了该领域的快速发展趋势。

关于 OpenAI o1 模型的跟进,目前已有多个技术方案。大多数现有方案采用知识蒸馏模仿 o1 的推理风格,但这些方法的效果受限于教师模型的能力上限及数据质量。

目前已知的尝试包括 k0-math、skywork-o1、Deepseek-R1、QwQ 和 InternThinker 等,其中部分模型尚未完全开源。以下是对主要复现路径的详细分析:
g1 是最早尝试重新实现 o1 的项目之一,采用的方法是提示工程。其核心在于提示大型语言模型进行自我反思并提出多种解决方案,以此克隆 o1 的行为模式。
Thinking Claude 的工作方式与 g1 类似,它通过更复杂和细粒度的动作提示大型语言模型,如问题分析和进度跟踪。g1 和思考克洛德都能重塑大型语言模型的行为,使其类似于 o1,但目前尚未在大规模推理基准测试中得到充分验证。
Open-o1 提供了一个安全函数训练(SFT)数据集,其中每个回应都包含较长的上下文。虽然数据来源尚不明确(可能来自人类专家或强大的 LLM),但实验发现,在该数据集上训练 llama-3-8b 和 qwen-7b 不仅能够塑造模型回应的风格以模仿 o1,还能显著提高模型在推理基准测试上的表现。
o1 Journey 采用了更为复杂的流程。在第一部分中,通过束搜索生成的树状数据被遍历,特定节点由 GPT-4 进行精炼,然后用于监督式微调。论文中呈现的例子突出了模型的自我反思能力,这来自于 GPT-4 的精炼过程。该方法可描述为专家迭代,其中 SFT 应用于通过搜索生成的数据。此外,还将 o1-mini 注释的 PRM 与 Math-Shepherd 进行了比较,研究发现 o1-mini 的性能优于 Math-Shepherd。
在第二部分中,引入了截然不同的方法。第一部分侧重于强化学习,而第二部分则尝试蒸馏 o1-mini。尽管 o1-mini 隐藏了思维链(CoT)并且只输出 CoT 的摘要,第二部分则尝试通过提示 o1-mini 来增强摘要,从而恢复隐藏的 CoT。通过蒸馏,发现在 AIME 上 Qwen-72B 的性能优于 o1-preview。然而,这并不意味着蒸馏使得学生模型能够超越教师模型,因为 o1-mini 在 AIME 上也超越了 o1-preview。
Open-Reasoner 的框架类似于 AlphaGo,利用强化学习来提升模型性能。在测试阶段,采用蒙特卡洛树搜索(MCTS)来确定最优解。这个搜索算法仅在测试期间应用,而训练数据则是通过当前策略进行采样得到的。此外,采用了与 Math-Shepherd 类似的方法来训练奖励模型。
Slow Thinking with LLMs 与 o1 Journey 类似,第一部分与 Open-Reasoner 类似,结合了强化学习和测试时搜索。但与开放式推理器不同的是,它在训练期间采用了 DPO 算法而不是 PPO 算法。在测试阶段,它还采用 MCTS 算法进行搜索。第 2 部分从 QwQ 和 Deepseek-R1 蒸馏出知识,并尝试了两种强化学习方法:DPO 和 SFT,使用来自拒绝采样的数据进行训练。研究发现,通过从 QwQ 和 Deepseek-R1 中蒸馏成千上万个例子,可以在具有挑战性的推理任务上显著提高性能,而基于蒸馏的强化学习可以带来进一步的改进。
Marco-o1 整合了 Open-o1 的数据和模型自身生成的数据,通过 MCTS 算法进行 SFT 训练。Marco-o1 展示了在每一步 MCTS 过程后提示模型进行自我反思,增强了搜索的有效性。
o1-coder 尝试在代码生成上重新实现 o1。训练一个生成器来生成测试用例以提供结果奖励。有了结果奖励,使用 MCTS 算法生成代码解决方案,然后用于通过 SFT 改进策略模型。按照 Wang 等人(2024c)的方法训练了一个 PRM,该方法随着策略的改进而更新。

关于这块的总结,可以参考最近的进展,《Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective》。该路线图详细阐述了如何通过强化学习视角复现 o1 模型,主要包括四个关键组件:策略初始化、奖励设计、搜索和学习。
策略初始化使模型具备基本推理行为,能够有效探索复杂问题的解空间。预训练和指令微调是策略初始化的两个主要阶段。预训练通过大规模文本语料库学习基本的语言理解和推理能力;指令微调则将预训练的语言模型转化为面向任务的代理,使其能够遵循特定的指令格式进行推理。

奖励设计为搜索和学习提供指导信号。过程奖励模型(PRM)比结果奖励模型(ORM)更适合复杂的推理任务,因为它不仅奖励最终结果,还奖励中间步骤的正确性。这种密集的信号有助于模型在长链条推理中保持方向正确。也可以将稀疏的结果奖励转化为密集的过程奖励,从而提高训练的稳定性。

搜索在训练和测试阶段都起着重要作用。训练时搜索生成高质量的训练数据,测试时搜索通过迭代改进模型的策略。树搜索算法如蒙特卡罗树搜索(MCTS)和束搜索(Beam Search)在生成高质量解决方案方面表现出色。MCTS 通过平衡探索与利用,能够在巨大的解空间中找到最优路径。

学习利用搜索生成的数据进行策略改进。策略梯度方法和行为克隆是两种主要的学习方法。策略梯度方法如近端策略优化(PPO)和直接策略优化(DPO)通过梯度上升更新策略,最大化期望奖励。行为克隆则通过监督学习逼近专家策略,适用于有高质量演示数据的情况。

本文主要探讨了大模型推理方面的工作,重点总结了多模态大模型在数学推理领域的挑战与方案,以及 OpenAI o1 模型的复现跟进情况。多模态数学推理面临视觉提取、跨域泛化和错误纠正等多重挑战,现有方案主要通过推理器、增强器和规划器三种范式进行应对。在 o1 模型复现方面,从提示工程、监督微调到强化学习与搜索算法,多种技术路径正在并行发展。未来的研究将继续围绕强化学习的四大核心组件展开,以期实现更高效、更可靠的通用推理能力。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online