MiniMax-M2.5 开源：编程与智能体成本效率双突破

MiniMax-M2.5 开源发布，在编程、智能体工具调用及办公场景表现优异。模型基于强化学习训练，支持十余种语言，SWE-Bench Verified 通过率 80.2%。推理速度达每秒 100 token，成本显著降低，每小时运行仅需 1 美元。提供多种本地化部署方案，包括 SGLang、vLLM 等框架，适合高价值任务开发。

活在当下发布于 2026/3/27更新于 2026/4/251 浏览

MiniMax-M2.5 开源发布

MiniMax 近日开源了最新模型 MiniMax-M2.5。该模型在数十万复杂现实场景中通过强化学习进行广泛训练，在编程、智能体工具使用与搜索、办公及一系列高经济价值任务上达到业界顶尖水平。

核心性能表现

M2.5 在多项基准测试中表现亮眼，其 SWE-Bench Verified 通过率 80.2%、Multi-SWE-Bench 51.3%、BrowseComp（含上下文管理）76.3%。经过高效推理与任务分解优化训练，M2.5 执行复杂智能体任务时展现惊人速度，完成 SWE-Bench Verified 评估比 M2.1 快 37%，与 Claude Opus 4.6 速度持平。

作为首个让用户无需顾虑成本的尖端模型，M2.5 真正实现"智能廉价如水电"。以每秒 100 token 的速度持续运行一小时仅需 1 美元。若降至每秒 50 token，成本可低至 0.3 美元。

编程能力

相较于前代模型的显著提升在于，M2.5 具备了建筑师般的思维规划能力。该模型在训练过程中展现出编写技术方案（Spec）的倾向：在编写任何代码之前，M2.5 会主动从资深软件架构师视角对项目的功能模块、结构设计和界面交互进行拆解规划。

M2.5 基于 20 余万真实开发环境数据训练，支持包括 Go/C/C++/TypeScript/Rust/Kotlin/Python/Java/JavaScript/PHP/Lua/Dart/Ruby 等 10 余种编程语言。其能力远不止于修复 BUG，而是在复杂系统开发全周期均展现出可靠表现：从 0 到 1 的系统设计与环境搭建，1 到 10 的系统开发，10 到 90 的功能迭代，直至 90 到 100 的完整代码审查与系统测试。

为评估这些能力，我们将 VIBE 基准测试升级为更具挑战性的 Pro 版本。总体而言，M2.5 表现与 Opus 4.5 相当。

我们重点关注了模型在分布外测试框架上的泛化能力。通过不同编程代理框架在 SWE-Bench Verified 评估集上测试性能表现：

Droid 框架：79.7 分 (M2.5 模型) > 78.9 分 (Opus 4.6 模型)
OpenCode 框架：76.1 分 (M2.5 模型) > 75.9 分 (Opus 4.6 模型)

搜索和工具调用

有效的工具调用和搜索是模型自主处理更复杂任务的前提。在 BrowseComp、Wide Search 等基准测试中，M2.5 都实现了业界领先的性能表现。同时模型的泛化性也有所提升——M2.5 在面对不熟悉的脚手架环境时展现出了更稳定的性能。

在专业人类专家执行的研究任务中，使用搜索引擎只是流程中的一小部分；大部分工作需要在信息密集的网页中进行深度探索。为此我们构建了 RISE（Realistic Interactive Search Evaluation）来测量模型在真实专业任务中的搜索能力。

相较于前代模型，M2.5 在处理智能体任务时也展现出更优的决策能力：它学会了用更精准的搜索轮次和更好的 token 效率来解决问题。例如在 BrowseComp、Wide Search 和 RISE 等多个智能体任务中，M2.5 都用更少的轮次取得了更好的结果，相比 M2.1 减少了约 20% 的轮次使用量。

办公场景

M2.5 被训练为能在办公场景中产出真正可交付的成果。为此我们与金融、法律、社会科学等领域的资深专家展开了深度合作。他们设计需求、提供反馈、参与标准制定，并直接参与数据构建，将行业内的隐性知识带入了模型的训练流程。基于此，M2.5 在 Word、PPT、Excel 财务建模等高价值工作场景中实现了显著的能力提升。

与其他主流模型的对比中，M2.5 在内部协作智能体评估框架（GDPval-MM）中取得了 59.0% 的平均胜率。

效率与成本

现实世界充满截止日期与时间限制，任务完成速度是实际刚需。模型完成任务耗时取决于其任务分解效能、token 利用效率和推理速度。M2.5 原生服务速率达每秒 100 个 token，是其他前沿模型的近两倍。

以 SWE-Bench Verified 测试为例，M2.5 平均每个任务消耗 352 万 token，而 M2.1 消耗 372 万 token。得益于并行工具调用等能力提升，端到端运行时间从平均 31.3 分钟降至 22.8 分钟，提速 37%。该运行时间与 Claude Opus 4.6 的 22.9 分钟持平，而单任务总成本仅为后者的 10%。

我们设计 M2 系列基座模型的目标是实现复杂智能体应用无需顾虑成本。M2.5 已接近达成该目标。我们发布 M2.5 和 M2.5-Lightning 两个版本，能力相同但速度有别。M2.5-Lightning 稳态吞吐达每秒 100token，比其他前沿模型快两倍，输入 token 百万成本 0.3 美元，输出 token 百万成本 2.4 美元。两版本均支持缓存，按输出价格计算，M2.5 成本仅为 Opus、Gemini 3 Pro 和 GPT-5 的十分之一至二十分之一。

技术演进

从去年 10 月下旬至今的三个半月里，我们相继发布 M2、M2.1 和 M2.5，模型进化速度超出最初预期。在备受推崇的 SWE-Bench Verified 基准测试中，M2 系列的进步速度显著快于 Claude、GPT 和 Gemini 等同类模型家族。

Benchmark	MiniMax-M2.5	MiniMax-M2.1	Claude Sonnet 4.5	Claude Opus 4.5	Claude Opus 4.6	Gemini 3 Pro	GPT-5.2 (thinking)
AIME25	86.3	83.0	88.0	91.0	95.6	96.0	98.0
GPQA-D	85.2	83.0	83.0	87.0	90.0	91.0	90.0
HLE w/o tools	19.4	22.2	17.3	28.4	30.7	37.2	31.4
SciCode	44.4	41.0	45.0	50.0	52.0	56.0	52.0
IFBench	70.0	70.0	57.0	58.0	53.0	70.0	75.0
AA-LCR	69.5	62.0	66.0	74.0	71.0	71.0	73.0

MiniMax-M2.5 开源：编程与智能体成本效率双突破

MiniMax-M2.5 开源发布

核心性能表现

编程能力

搜索和工具调用

办公场景

效率与成本

技术演进

更多推荐文章

相关免费在线工具

Forge——原生智能体强化学习框架

智能体强化学习算法与奖励设计

本地化部署指南

SGLang 框架

vLLM

Transformers

KTransformers

ModelScope

推理参数

附录：基准测试结果

更多推荐文章

相关免费在线工具

MiniMax-M2.5 开源：编程与智能体成本效率双突破

MiniMax-M2.5 开源发布

核心性能表现

编程能力

搜索和工具调用

办公场景

效率与成本

技术演进

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Forge——原生智能体强化学习框架

智能体强化学习算法与奖励设计

本地化部署指南

SGLang 框架

vLLM

Transformers

KTransformers

ModelScope

推理参数

附录：基准测试结果

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具