OpenAI 发布最强推理模型 o1,大模型迎来新起点
北京时间 9 月 13 日凌晨,美国 OpenAI 公司正式发布全新模型技术产品 o1。该系列包含两个版本:o1-preview 和 o1-mini。其中,o1-preview 具备高级推理功能,在数学、编程、科学等复杂问题的能力上显著提高,性能接近理科博士水平;o1-mini 则是一款更小巧、专为代码生成优化的模型,旨在提供更快、更便宜的推理服务。

核心能力与定位
OpenAI 表示,对于复杂推理任务而言,新模型代表着 AI 能力的崭新水平。因此,OpenAI 决定将计数重置为 1,给它一个有别于'GPT-4'系列的全新名号。这预示着 AI 时代迎来崭新的起点——能够进行通用复杂推理的大模型正式到来。
训练范式的根本转变
OpenAI 的研究负责人 Jerry Tworek 透露,o1 模型背后的训练与之前的产品有着根本性的区别。之前的 GPT 模型旨在模仿其训练数据中的模式,而 o1 的训练旨在让其独立解决问题。在强化学习的过程中,使用奖励和惩罚机制来'教育'AI 使用'思维链'(Chain of Thought)来处理问题,就像人类习得拆解、分析问题的方式一样。
o1 上线之后,ChatGPT 可以在回答问题前先仔细思考,而不是立即脱口而出答案。这类似于人类大脑的系统 1 和系统 2:
- 系统 1:快速、自动、直观、易出错。
- 系统 2:缓慢、深思熟虑、有意识、可靠。
ChatGPT 已经从仅使用系统 1 进化到了可使用系统 2 思维。这意味着 AI 会在回答之前花更多时间进行思考,而非单纯预测单词生成的序列。通过文字点开 AI 思考的过程,用户可以看到 AI 表示'我在思考这个事情这么做行不行'、'啊时间不够了得尽快给出答案'等内部逻辑。OpenAI 确认,这里展示的并不是原始的思维链,而是'模型生成的摘要',公司也坦率承认这里有保持'竞争优势'的因素。
性能基准测试表现
根据公开测试数据,o1 在多个高难度领域展现了显著优势:
- 国际数学奥林匹克(IMO)资格考试:GPT-4o 仅正确解答了 13% 的问题,而 o1 模型正确解答了 83% 的问题。
- 编程能力比赛 Codeforces:o1 模型拿到 89% 百分位的成绩,而 GPT-4o 只有 11%。
OpenAI 技术文件称,实验结果表明:o1 超越了人类专家的表现,性能接近理科博士水平,成为第一个在该基准测试中做到这一点的模型。而在下一个更新的版本中,AI 在物理、化学和生物学的挑战性基准测试中,表现能够与博士生水平类似。

技术细节与限制
推理时间计算(Test-time Compute)
OpenAI 发现,随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 的性能持续提高。而且扩展这种方法的限制与大模型预训练的限制有很大不同。天风国际称,OpenAI o1 系列模型大幅增强推理能力,并宣布新的 Scaling 范式:通过 RL 解锁 Test time compute(推理时间)。英伟达首席科学家 Jim Fan 表示,新的 o1 需要消耗更大的算力和数据,并且能够形成数据飞轮效应,正确的答案及其思考过程可以成为很好的训练数据。从而不断改进推理核心,类似 AlphaGo 的价值网络随着 MCTS 生成更多精炼数据而改进。
当前限制与访问权限
需要注意的是,o1 目前的聊天体验还比较基础。不同于其前身 GPT-4o,o1 目前无法浏览网页或处理文件分析功能。尽管它具备图像分析功能,但该功能暂时关闭,等待进一步测试。此外,o1 还有消息量限制——目前 o1-preview 每周限额 30 条、o1-mini 每周 50 条。
即日起,o1-preview 和 o1-mini 两个版本已经在 ChatGPT Plus/Team 和 API 接口渠道上线,企业和教育用户将于下周初获得优先访问权限。
定价策略
除了 OpenAI o1-preview 外,OpenAI 今晨也同步推出了 o1-mini 模型。o1-mini 更快、更便宜,定价也比 preview 版本降低了 80%,适用于需要推理但不需要广泛世界知识的场景。这使得开发者可以在成本敏感的场景下利用 o1 的推理能力。

行业影响与未来展望
对 AI Agent 技术的推动
虽然新的 OpenAI o1 还不具备更全面问题解决能力,但显著提升的推理能力使其在科学、编程、数学等专业领域具备了更大的用途。AI Agent 相关技术的下限和上限被整体拉高,大幅提升科学研究和生产端的能力。对于消费端来说,意义在于更可靠的自动化任务处理能力。
开发者的应对策略
面对 o1 带来的变化,开发者和技术团队需要注意以下几点:
- 提示词工程调整:由于模型会先思考再回答,传统的 Prompt 可能需要调整以适配'思考 - 输出'的流程。
- 成本控制:推理时间增加意味着 Token 消耗可能上升,需评估 API 调用成本。
- 应用场景拓展:在需要高准确度逻辑判断的场景(如代码审查、数学解题、法律条文分析)优先部署 o1 模型。
未来研究方向
OpenAI CEO 奥尔特曼(Sam Altman)表示,'这是我们迄今为止功能最强大、最一致的模型系列 o1,也是迄今为止我们最好的推理模型。虽然 o1 仍然存在缺陷并有限,但使用时的感觉依然更加令人印象深刻。'
随着更多的强化学习和思考时间的投入,o1 的性能预计将持续提高。OpenAI 也在继续研究扩展这种方法,未来的版本可能会在物理、化学和生物学等科学领域达到甚至超越人类专家的水平。这将极大地加速科学发现的进程,例如在新材料研发、药物分子筛选等方面。
潜在挑战
尽管 o1 展示了强大的推理能力,但也面临一些挑战:
- 延迟问题:为了进行深度思考,响应时间可能会比传统模型更长。
- 幻觉风险:虽然推理能力提升,但在复杂长链条任务中仍需警惕错误累积。
- 可解释性:模型内部的思考过程是黑盒,如何验证其推理路径的正确性仍是研究难点。
总体而言,o1 的发布标志着大模型从'概率预测'向'逻辑推理'迈出了关键一步,为后续的智能体发展和通用人工智能探索奠定了重要基础。