OpenAI 发布最强推理模型 o1，大模型迎来新起点

北京时间 9 月 13 日凌晨，美国 OpenAI 公司正式发布全新模型技术产品 o1。该系列包含两个版本：o1-preview 和 o1-mini。其中，o1-preview 具备高级推理功能，在数学、编程、科学等复杂问题的能力上显著提高，性能接近理科博士水平；o1-mini 则是一款更小巧、专为代码生成优化的模型，旨在提供更快、更便宜的推理服务。

OpenAI o1 模型示意图

核心能力与定位

OpenAI 表示，对于复杂推理任务而言，新模型代表着 AI 能力的崭新水平。因此，OpenAI 决定将计数重置为 1，给它一个有别于'GPT-4'系列的全新名号。这预示着 AI 时代迎来崭新的起点——能够进行通用复杂推理的大模型正式到来。

训练范式的根本转变

OpenAI 的研究负责人 Jerry Tworek 透露，o1 模型背后的训练与之前的产品有着根本性的区别。之前的 GPT 模型旨在模仿其训练数据中的模式，而 o1 的训练旨在让其独立解决问题。在强化学习的过程中，使用奖励和惩罚机制来'教育'AI 使用'思维链'（Chain of Thought）来处理问题，就像人类习得拆解、分析问题的方式一样。

o1 上线之后，ChatGPT 可以在回答问题前先仔细思考，而不是立即脱口而出答案。这类似于人类大脑的系统 1 和系统 2：

系统 1：快速、自动、直观、易出错。
系统 2：缓慢、深思熟虑、有意识、可靠。

ChatGPT 已经从仅使用系统 1 进化到了可使用系统 2 思维。这意味着 AI 会在回答之前花更多时间进行思考，而非单纯预测单词生成的序列。通过文字点开 AI 思考的过程，用户可以看到 AI 表示'我在思考这个事情这么做行不行'、'啊时间不够了得尽快给出答案'等内部逻辑。OpenAI 确认，这里展示的并不是原始的思维链，而是'模型生成的摘要'，公司也坦率承认这里有保持'竞争优势'的因素。

性能基准测试表现

根据公开测试数据，o1 在多个高难度领域展现了显著优势：

国际数学奥林匹克（IMO）资格考试：GPT-4o 仅正确解答了 13% 的问题，而 o1 模型正确解答了 83% 的问题。
编程能力比赛 Codeforces：o1 模型拿到 89% 百分位的成绩，而 GPT-4o 只有 11%。

OpenAI 技术文件称，实验结果表明：o1 超越了人类专家的表现，性能接近理科博士水平，成为第一个在该基准测试中做到这一点的模型。而在下一个更新的版本中，AI 在物理、化学和生物学的挑战性基准测试中，表现能够与博士生水平类似。

OpenAI o1 推理过程展示

技术细节与限制

推理时间计算（Test-time Compute）

OpenAI 发现，随着更多的强化学习（训练时计算）和更多的思考时间（测试时计算），o1 的性能持续提高。而且扩展这种方法的限制与大模型预训练的限制有很大不同。天风国际称，OpenAI o1 系列模型大幅增强推理能力，并宣布新的 Scaling 范式：通过 RL 解锁 Test time compute（推理时间）。英伟达首席科学家 Jim Fan 表示，新的 o1 需要消耗更大的算力和数据，并且能够形成数据飞轮效应，正确的答案及其思考过程可以成为很好的训练数据。从而不断改进推理核心，类似 AlphaGo 的价值网络随着 MCTS 生成更多精炼数据而改进。

当前限制与访问权限

需要注意的是，o1 目前的聊天体验还比较基础。不同于其前身 GPT-4o，o1 目前无法浏览网页或处理文件分析功能。尽管它具备图像分析功能，但该功能暂时关闭，等待进一步测试。此外，o1 还有消息量限制——目前 o1-preview 每周限额 30 条、o1-mini 每周 50 条。

即日起，o1-preview 和 o1-mini 两个版本已经在 ChatGPT Plus/Team 和 API 接口渠道上线，企业和教育用户将于下周初获得优先访问权限。

定价策略

除了 OpenAI o1-preview 外，OpenAI 今晨也同步推出了 o1-mini 模型。o1-mini 更快、更便宜，定价也比 preview 版本降低了 80%，适用于需要推理但不需要广泛世界知识的场景。这使得开发者可以在成本敏感的场景下利用 o1 的推理能力。

OpenAI o1 模型对比

行业影响与未来展望

对 AI Agent 技术的推动

虽然新的 OpenAI o1 还不具备更全面问题解决能力，但显著提升的推理能力使其在科学、编程、数学等专业领域具备了更大的用途。AI Agent 相关技术的下限和上限被整体拉高，大幅提升科学研究和生产端的能力。对于消费端来说，意义在于更可靠的自动化任务处理能力。

开发者的应对策略

面对 o1 带来的变化，开发者和技术团队需要注意以下几点：

提示词工程调整：由于模型会先思考再回答，传统的 Prompt 可能需要调整以适配'思考 - 输出'的流程。
成本控制：推理时间增加意味着 Token 消耗可能上升，需评估 API 调用成本。
应用场景拓展：在需要高准确度逻辑判断的场景（如代码审查、数学解题、法律条文分析）优先部署 o1 模型。

未来研究方向

OpenAI CEO 奥尔特曼（Sam Altman）表示，'这是我们迄今为止功能最强大、最一致的模型系列 o1，也是迄今为止我们最好的推理模型。虽然 o1 仍然存在缺陷并有限，但使用时的感觉依然更加令人印象深刻。'

随着更多的强化学习和思考时间的投入，o1 的性能预计将持续提高。OpenAI 也在继续研究扩展这种方法，未来的版本可能会在物理、化学和生物学等科学领域达到甚至超越人类专家的水平。这将极大地加速科学发现的进程，例如在新材料研发、药物分子筛选等方面。

潜在挑战

尽管 o1 展示了强大的推理能力，但也面临一些挑战：

延迟问题：为了进行深度思考，响应时间可能会比传统模型更长。
幻觉风险：虽然推理能力提升，但在复杂长链条任务中仍需警惕错误累积。
可解释性：模型内部的思考过程是黑盒，如何验证其推理路径的正确性仍是研究难点。

总体而言，o1 的发布标志着大模型从'概率预测'向'逻辑推理'迈出了关键一步，为后续的智能体发展和通用人工智能探索奠定了重要基础。