MiniMax 开源 MiniMax-M2.5 模型：编程与智能体性能突破

文章配图

MiniMax 发布了最新模型 MiniMax-M2.5。

该模型在数十万复杂现实场景中通过强化学习进行广泛训练，在编程、智能体工具使用与搜索、办公及一系列高经济价值任务上达到业界顶尖水平。其 SWE-Bench Verified 通过率 80.2%、Multi-SWE-Bench 51.3%、BrowseComp（含上下文管理）76.3% 的表现尤为亮眼。

经过高效推理与任务分解优化训练，M2.5 执行复杂智能体任务时展现惊人速度，完成 SWE-Bench Verified 评估比 M2.1 快 37%，与 Claude Opus 4.6 速度持平。

M2.5 是首个让用户无需顾虑成本的尖端模型，真正实现"智能廉价如水电"的承诺。以每秒 100 token 的速度持续运行一小时仅需 1 美元。若降至每秒 50 token，成本可低至 0.3 美元。

编程表现

在编程评估中，MiniMax-M2.5 相较前代取得显著进步，达到业界顶尖水准。其多语言任务表现尤为突出。

在这里插入图片描述

相较于前代模型的显著提升在于，M2.5 具备了建筑师般的思维规划能力。该模型在训练过程中展现出编写技术方案（Spec）的倾向：在编写任何代码之前，M2.5 会主动从资深软件架构师视角对项目的功能模块、结构设计和界面交互进行拆解规划。

M2.5 基于 20 余万真实开发环境数据训练，支持包括 Go/C/C++/TypeScript/Rust/Kotlin/Python/Java/JavaScript/PHP/Lua/Dart/Ruby 等 10 余种编程语言。其能力远不止于修复 BUG，而是在复杂系统开发全周期均展现出可靠表现：从 0 到 1 的系统设计与环境搭建，1 到 10 的系统开发，10 到 90 的功能迭代，直至 90 到 100 的完整代码审查与系统测试。涵盖 Web/Android/iOS/Windows 等多平台全栈项目，包含服务端 API/业务逻辑/数据库等完整模块，而非仅前端网页 demo。

为评估这些能力，我们还将 VIBE 基准测试升级为更具挑战性的 Pro 版本，大幅提升任务复杂度、领域覆盖度和评估精准度。总体而言，M2.5 表现与 Opus 4.5 相当。

在这里插入图片描述

我们重点关注了模型在分布外测试框架上的泛化能力。通过不同编程代理框架在 SWE-Bench Verified 评估集上测试性能表现：

Droid 框架：79.7 分 (M2.5 模型) > 78.9 分 (Opus 4.6 模型)
OpenCode 框架：76.1 分 (M2.5 模型) > 75.9 分 (Opus 4.6 模型)

搜索和工具调用

在这里插入图片描述

有效的工具调用和搜索是模型自主处理更复杂任务的前提。在 BrowseComp、Wide Search 等基准测试中，M2.5 都实现了业界领先的性能表现。同时模型的泛化性也有所提升——M2.5 在面对不熟悉的脚手架环境时展现出了更稳定的性能。

在专业人类专家执行的研究任务中，使用搜索引擎只是流程中的一小部分；大部分工作需要在信息密集的网页中进行深度探索。为此我们构建了 RISE（Realistic Interactive Search Evaluation）来测量模型在真实专业任务中的搜索能力。结果显示 M2.5 在真实场景的专家级搜索任务中表现卓越。

Benchmark	MiniMax-M2.5	MiniMax-M2.1	Claude Sonnet 4.5	Claude Opus 4.5	Claude Opus 4.6	Gemini 3 Pro	GPT-5.2 (thinking)
AIME25	86.3	83.0	88.0	91.0	95.6	96.0	98.0
GPQA-D	85.2	83.0	83.0	87.0	90.0	91.0	90.0
HLE w/o tools	19.4	22.2	17.3	28.4	30.7	37.2	31.4
SciCode	44.4	41.0	45.0	50.0	52.0	56.0	52.0
IFBench	70.0	70.0	57.0	58.0	53.0	70.0	75.0
AA-LCR	69.5	62.0	66.0	74.0	71.0	71.0	73.0

MiniMax 开源 MiniMax-M2.5 模型：编程与智能体性能突破

编程表现

搜索和工具调用

更多推荐文章

相关免费在线工具

办公场景

效率

成本

进化速率

强化学习的规模化发展

Forge——原生智能体强化学习框架

智能体强化学习算法与奖励设计

MiniMax 智能体：M2.5 作为专业员工

使用指南

本地化部署指南

SGLang 框架

vLLM

Transformers

KTransformers

ModelScope

推理参数

工具调用指南

联系我们

附录

更多推荐文章

相关免费在线工具

MiniMax 开源 MiniMax-M2.5 模型：编程与智能体性能突破

编程表现

搜索和工具调用

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

办公场景

效率

成本

进化速率

强化学习的规模化发展

Forge——原生智能体强化学习框架

智能体强化学习算法与奖励设计

MiniMax 智能体：M2.5 作为专业员工

使用指南

本地化部署指南

SGLang 框架

vLLM

Transformers

KTransformers

ModelScope

推理参数

工具调用指南

联系我们

附录

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具