MiniMax-M2.5 模型发布
MiniMax 推出最新模型 MiniMax-M2.5。该模型在数十万复杂现实场景中通过强化学习进行广泛训练,在编程、智能体工具使用与搜索、办公及一系列高经济价值任务上达到业界顶尖水平,其 SWE-Bench Verified 通过率 80.2%、Multi-SWE-Bench 51.3%、BrowseComp(含上下文管理)76.3% 的表现尤为亮眼。
经过高效推理与任务分解优化训练,M2.5 执行复杂智能体任务时展现惊人速度,完成 SWE-Bench Verified 评估比 M2.1 快 37%,与 Claude Opus 4.6 速度持平。
M2.5 是首个让用户无需顾虑成本的尖端模型,真正实现'智能廉价如水电'的承诺。以每秒 100 token 的速度持续运行一小时仅需 1 美元。若降至每秒 50 token,成本可低至 0.3 美元。我们希望 M2.5 的速度与成本优势能催生革命性智能体应用。
编程表现
在编程评估中,MiniMax-M2.5 相较前代取得显著进步,达到业界顶尖水准。其多语言任务表现尤为突出。

相较于前代模型的显著提升在于,M2.5 具备了建筑师般的思维规划能力。该模型在训练过程中展现出编写技术方案(Spec)的倾向:在编写任何代码之前,M2.5 会主动从资深软件架构师视角对项目的功能模块、结构设计和界面交互进行拆解规划。
M2.5 基于 20 余万真实开发环境数据训练,支持包括 Go/C/C++/TypeScript/Rust/Kotlin/Python/Java/JavaScript/PHP/Lua/Dart/Ruby 等 10 余种编程语言。其能力远不止于修复 BUG,而是在复杂系统开发全周期均展现出可靠表现:从 0 到 1 的系统设计与环境搭建,1 到 10 的系统开发,10 到 90 的功能迭代,直至 90 到 100 的完整代码审查与系统测试。涵盖 Web/Android/iOS/Windows 等多平台全栈项目,包含服务端 API/业务逻辑/数据库等完整模块,而非仅前端网页 demo。
为评估这些能力,我们还将 VIBE 基准测试升级为更具挑战性的 Pro 版本,大幅提升任务复杂度、领域覆盖度和评估精准度。总体而言,M2.5 表现与 Opus 4.5 相当。

我们重点关注了模型在分布外测试框架上的泛化能力。通过不同编程代理框架在 SWE-Bench Verified 评估集上测试性能表现:
- Droid 框架:79.7 分 (M2.5 模型) > 78.9 分 (Opus 4.6 模型)
- OpenCode 框架:76.1 分 (M2.5 模型) > 75.9 分 (Opus 4.6 模型)
搜索和工具调用

有效的工具调用和搜索是模型自主处理更复杂任务的前提。在 BrowseComp、Wide Search 等基准测试中,M2.5 都实现了业界领先的性能表现。同时模型的泛化性也有所提升——M2.5 在面对不熟悉的脚手架环境时展现出了更稳定的性能。
在专业人类专家执行的研究任务中,使用搜索引擎只是流程中的一小部分;大部分工作需要在信息密集的网页中进行深度探索。为此我们构建了 RISE(Realistic Interactive Search Evaluation)来测量模型在真实专业任务中的搜索能力。结果显示 M2.5 在真实场景的专家级搜索任务中表现卓越。
相较于前代模型,M2.5 在处理智能体任务时也展现出更优的决策能力:它学会了用更精准的搜索轮次和更好的 token 效率来解决问题。例如在 BrowseComp、Wide Search 和 RISE 等多个智能体任务中,M2.5 都用更少的轮次取得了更好的结果,相比 M2.1 减少了约 20% 的轮次使用量。这说明模型已不仅是在把答案做对,更是在用更高效率的路径推理出结果。






