MiniMax-M2.5 模型发布：编程与智能体性能突破

MiniMax-M2.5 模型发布 MiniMax 推出最新模型 MiniMax-M2.5。该模型在数十万复杂现实场景中通过强化学习进行广泛训练，在编程、智能体工具使用与搜索、办公及一系列高经济价值任务上达到业界顶尖水平，其 SWE-Bench Verified 通过率 80.2%、Multi-SWE-Bench 51.3%、BrowseComp（含上下文管理）76.3% 的表现尤为亮眼。经过高…

指针猎手发布于 2026/4/6更新于 2026/5/2338K 浏览

MiniMax-M2.5 模型发布

MiniMax 推出最新模型 MiniMax-M2.5。该模型在数十万复杂现实场景中通过强化学习进行广泛训练，在编程、智能体工具使用与搜索、办公及一系列高经济价值任务上达到业界顶尖水平，其 SWE-Bench Verified 通过率 80.2%、Multi-SWE-Bench 51.3%、BrowseComp（含上下文管理）76.3% 的表现尤为亮眼。

经过高效推理与任务分解优化训练，M2.5 执行复杂智能体任务时展现惊人速度，完成 SWE-Bench Verified 评估比 M2.1 快 37%，与 Claude Opus 4.6 速度持平。

M2.5 是首个让用户无需顾虑成本的尖端模型，真正实现'智能廉价如水电'的承诺。以每秒 100 token 的速度持续运行一小时仅需 1 美元。若降至每秒 50 token，成本可低至 0.3 美元。我们希望 M2.5 的速度与成本优势能催生革命性智能体应用。

编程表现

在编程评估中，MiniMax-M2.5 相较前代取得显著进步，达到业界顶尖水准。其多语言任务表现尤为突出。

相较于前代模型的显著提升在于，M2.5 具备了建筑师般的思维规划能力。该模型在训练过程中展现出编写技术方案（Spec）的倾向：在编写任何代码之前，M2.5 会主动从资深软件架构师视角对项目的功能模块、结构设计和界面交互进行拆解规划。

M2.5 基于 20 余万真实开发环境数据训练，支持包括 Go/C/C++/TypeScript/Rust/Kotlin/Python/Java/JavaScript/PHP/Lua/Dart/Ruby 等 10 余种编程语言。其能力远不止于修复 BUG，而是在复杂系统开发全周期均展现出可靠表现：从 0 到 1 的系统设计与环境搭建，1 到 10 的系统开发，10 到 90 的功能迭代，直至 90 到 100 的完整代码审查与系统测试。涵盖 Web/Android/iOS/Windows 等多平台全栈项目，包含服务端 API/业务逻辑/数据库等完整模块，而非仅前端网页 demo。

为评估这些能力，我们还将 VIBE 基准测试升级为更具挑战性的 Pro 版本，大幅提升任务复杂度、领域覆盖度和评估精准度。总体而言，M2.5 表现与 Opus 4.5 相当。

我们重点关注了模型在分布外测试框架上的泛化能力。通过不同编程代理框架在 SWE-Bench Verified 评估集上测试性能表现：

Droid 框架：79.7 分 (M2.5 模型) > 78.9 分 (Opus 4.6 模型)
OpenCode 框架：76.1 分 (M2.5 模型) > 75.9 分 (Opus 4.6 模型)

搜索和工具调用

有效的工具调用和搜索是模型自主处理更复杂任务的前提。在 BrowseComp、Wide Search 等基准测试中，M2.5 都实现了业界领先的性能表现。同时模型的泛化性也有所提升——M2.5 在面对不熟悉的脚手架环境时展现出了更稳定的性能。

在专业人类专家执行的研究任务中，使用搜索引擎只是流程中的一小部分；大部分工作需要在信息密集的网页中进行深度探索。为此我们构建了 RISE（Realistic Interactive Search Evaluation）来测量模型在真实专业任务中的搜索能力。结果显示 M2.5 在真实场景的专家级搜索任务中表现卓越。

相较于前代模型，M2.5 在处理智能体任务时也展现出更优的决策能力：它学会了用更精准的搜索轮次和更好的 token 效率来解决问题。例如在 BrowseComp、Wide Search 和 RISE 等多个智能体任务中，M2.5 都用更少的轮次取得了更好的结果，相比 M2.1 减少了约 20% 的轮次使用量。这说明模型已不仅是在把答案做对，更是在用更高效率的路径推理出结果。

办公场景

MiniMax-M2.5 模型发布

经过高效推理与任务分解优化训练，M2.5 执行复杂智能体任务时展现惊人速度，完成 SWE-Bench Verified 评估比 M2.1 快 37%，与 Claude Opus 4.6 速度持平。

编程表现

在编程评估中，MiniMax-M2.5 相较前代取得显著进步，达到业界顶尖水准。其多语言任务表现尤为突出。

我们重点关注了模型在分布外测试框架上的泛化能力。通过不同编程代理框架在 SWE-Bench Verified 评估集上测试性能表现：

Droid 框架：79.7 分 (M2.5 模型) > 78.9 分 (Opus 4.6 模型)
OpenCode 框架：76.1 分 (M2.5 模型) > 75.9 分 (Opus 4.6 模型)

Benchmark	MiniMax-M2.5	MiniMax-M2.1	Claude Sonnet 4.5	Claude Opus 4.5	Claude Opus 4.6	Gemini 3 Pro	GPT-5.2 (thinking)
AIME25	86.3	83.0	88.0	91.0	95.6	96.0	98.0
GPQA-D	85.2	83.0	83.0	87.0	90.0	91.0	90.0
HLE w/o tools	19.4	22.2	17.3	28.4	30.7	37.2	31.4
SciCode	44.4	41.0	45.0	50.0	52.0	56.0	52.0
IFBench	70.0	70.0	57.0	58.0	53.0	70.0	75.0
AA-LCR	69.5	62.0	66.0	74.0	71.0	71.0	73.0

MiniMax-M2.5 模型发布：编程与智能体性能突破

MiniMax-M2.5 模型发布

编程表现

搜索和工具调用

办公场景

MiniMax-M2.5 模型发布：编程与智能体性能突破

MiniMax-M2.5 模型发布

编程表现

搜索和工具调用

办公场景

更多推荐文章

相关免费在线工具

效率

成本

进化速率

强化学习的规模化发展

Forge——原生智能体强化学习框架

智能体强化学习算法与奖励设计

MiniMax 智能体：M2.5 作为专业员工

本地化部署指南

SGLang 框架

vLLM

Transformers

KTransformers

ModelScope

推理参数

工具调用指南

附录

更多推荐文章

相关免费在线工具

MiniMax-M2.5 模型发布：编程与智能体性能突破

MiniMax-M2.5 模型发布

编程表现

搜索和工具调用

办公场景

MiniMax-M2.5 模型发布：编程与智能体性能突破

MiniMax-M2.5 模型发布

编程表现

搜索和工具调用

办公场景

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

效率

成本

进化速率

强化学习的规模化发展

Forge——原生智能体强化学习框架

智能体强化学习算法与奖励设计

MiniMax 智能体：M2.5 作为专业员工

本地化部署指南

SGLang 框架

vLLM

Transformers

KTransformers

ModelScope

推理参数

工具调用指南

附录

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具