MiniMax-M2.5 开源发布
MiniMax 近日开源了最新模型 MiniMax-M2.5。该模型在数十万复杂现实场景中通过强化学习进行广泛训练,在编程、智能体工具使用与搜索、办公及一系列高经济价值任务上达到业界顶尖水平。
核心性能表现
M2.5 在多项基准测试中表现亮眼,其 SWE-Bench Verified 通过率 80.2%、Multi-SWE-Bench 51.3%、BrowseComp(含上下文管理)76.3%。经过高效推理与任务分解优化训练,M2.5 执行复杂智能体任务时展现惊人速度,完成 SWE-Bench Verified 评估比 M2.1 快 37%,与 Claude Opus 4.6 速度持平。
作为首个让用户无需顾虑成本的尖端模型,M2.5 真正实现"智能廉价如水电"。以每秒 100 token 的速度持续运行一小时仅需 1 美元。若降至每秒 50 token,成本可低至 0.3 美元。
编程能力
相较于前代模型的显著提升在于,M2.5 具备了建筑师般的思维规划能力。该模型在训练过程中展现出编写技术方案(Spec)的倾向:在编写任何代码之前,M2.5 会主动从资深软件架构师视角对项目的功能模块、结构设计和界面交互进行拆解规划。
M2.5 基于 20 余万真实开发环境数据训练,支持包括 Go/C/C++/TypeScript/Rust/Kotlin/Python/Java/JavaScript/PHP/Lua/Dart/Ruby 等 10 余种编程语言。其能力远不止于修复 BUG,而是在复杂系统开发全周期均展现出可靠表现:从 0 到 1 的系统设计与环境搭建,1 到 10 的系统开发,10 到 90 的功能迭代,直至 90 到 100 的完整代码审查与系统测试。
为评估这些能力,我们将 VIBE 基准测试升级为更具挑战性的 Pro 版本。总体而言,M2.5 表现与 Opus 4.5 相当。
我们重点关注了模型在分布外测试框架上的泛化能力。通过不同编程代理框架在 SWE-Bench Verified 评估集上测试性能表现:
- Droid 框架:79.7 分 (M2.5 模型) > 78.9 分 (Opus 4.6 模型)
- OpenCode 框架:76.1 分 (M2.5 模型) > 75.9 分 (Opus 4.6 模型)
搜索和工具调用
有效的工具调用和搜索是模型自主处理更复杂任务的前提。在 BrowseComp、Wide Search 等基准测试中,M2.5 都实现了业界领先的性能表现。同时模型的泛化性也有所提升——M2.5 在面对不熟悉的脚手架环境时展现出了更稳定的性能。
在专业人类专家执行的研究任务中,使用搜索引擎只是流程中的一小部分;大部分工作需要在信息密集的网页中进行深度探索。为此我们构建了 RISE(Realistic Interactive Search Evaluation)来测量模型在真实专业任务中的搜索能力。
相较于前代模型,M2.5 在处理智能体任务时也展现出更优的决策能力:它学会了用更精准的搜索轮次和更好的 token 效率来解决问题。例如在 BrowseComp、Wide Search 和 RISE 等多个智能体任务中,M2.5 都用更少的轮次取得了更好的结果,相比 M2.1 减少了约 20% 的轮次使用量。
办公场景
M2.5 被训练为能在办公场景中产出真正可交付的成果。为此我们与金融、法律、社会科学等领域的资深专家展开了深度合作。他们设计需求、提供反馈、参与标准制定,并直接参与数据构建,将行业内的隐性知识带入了模型的训练流程。基于此,M2.5 在 Word、PPT、Excel 财务建模等高价值工作场景中实现了显著的能力提升。
与其他主流模型的对比中,M2.5 在内部协作智能体评估框架(GDPval-MM)中取得了 59.0% 的平均胜率。
效率与成本
现实世界充满截止日期与时间限制,任务完成速度是实际刚需。模型完成任务耗时取决于其任务分解效能、token 利用效率和推理速度。M2.5 原生服务速率达每秒 100 个 token,是其他前沿模型的近两倍。
以 SWE-Bench Verified 测试为例,M2.5 平均每个任务消耗 352 万 token,而 M2.1 消耗 372 万 token。得益于并行工具调用等能力提升,端到端运行时间从平均 31.3 分钟降至 22.8 分钟,提速 37%。该运行时间与 Claude Opus 4.6 的 22.9 分钟持平,而单任务总成本仅为后者的 10%。
我们设计 M2 系列基座模型的目标是实现复杂智能体应用无需顾虑成本。M2.5 已接近达成该目标。我们发布 M2.5 和 M2.5-Lightning 两个版本,能力相同但速度有别。M2.5-Lightning 稳态吞吐达每秒 100token,比其他前沿模型快两倍,输入 token 百万成本 0.3 美元,输出 token 百万成本 2.4 美元。两版本均支持缓存,按输出价格计算,M2.5 成本仅为 Opus、Gemini 3 Pro 和 GPT-5 的十分之一至二十分之一。
技术演进
从去年 10 月下旬至今的三个半月里,我们相继发布 M2、M2.1 和 M2.5,模型进化速度超出最初预期。在备受推崇的 SWE-Bench Verified 基准测试中,M2 系列的进步速度显著快于 Claude、GPT 和 Gemini 等同类模型家族。


