
MiniMax 发布了最新模型 MiniMax-M2.5。
该模型在数十万复杂现实场景中通过强化学习进行广泛训练,在编程、智能体工具使用与搜索、办公及一系列高经济价值任务上达到业界顶尖水平。其 SWE-Bench Verified 通过率 80.2%、Multi-SWE-Bench 51.3%、BrowseComp(含上下文管理)76.3% 的表现尤为亮眼。
经过高效推理与任务分解优化训练,M2.5 执行复杂智能体任务时展现惊人速度,完成 SWE-Bench Verified 评估比 M2.1 快 37%,与 Claude Opus 4.6 速度持平。
M2.5 是首个让用户无需顾虑成本的尖端模型,真正实现"智能廉价如水电"的承诺。以每秒 100 token 的速度持续运行一小时仅需 1 美元。若降至每秒 50 token,成本可低至 0.3 美元。
编程表现
在编程评估中,MiniMax-M2.5 相较前代取得显著进步,达到业界顶尖水准。其多语言任务表现尤为突出。

相较于前代模型的显著提升在于,M2.5 具备了建筑师般的思维规划能力。该模型在训练过程中展现出编写技术方案(Spec)的倾向:在编写任何代码之前,M2.5 会主动从资深软件架构师视角对项目的功能模块、结构设计和界面交互进行拆解规划。
M2.5 基于 20 余万真实开发环境数据训练,支持包括 Go/C/C++/TypeScript/Rust/Kotlin/Python/Java/JavaScript/PHP/Lua/Dart/Ruby 等 10 余种编程语言。其能力远不止于修复 BUG,而是在复杂系统开发全周期均展现出可靠表现:从 0 到 1 的系统设计与环境搭建,1 到 10 的系统开发,10 到 90 的功能迭代,直至 90 到 100 的完整代码审查与系统测试。涵盖 Web/Android/iOS/Windows 等多平台全栈项目,包含服务端 API/业务逻辑/数据库等完整模块,而非仅前端网页 demo。
为评估这些能力,我们还将 VIBE 基准测试升级为更具挑战性的 Pro 版本,大幅提升任务复杂度、领域覆盖度和评估精准度。总体而言,M2.5 表现与 Opus 4.5 相当。

我们重点关注了模型在分布外测试框架上的泛化能力。通过不同编程代理框架在 SWE-Bench Verified 评估集上测试性能表现:
- Droid 框架:79.7 分 (M2.5 模型) > 78.9 分 (Opus 4.6 模型)
- OpenCode 框架:76.1 分 (M2.5 模型) > 75.9 分 (Opus 4.6 模型)
搜索和工具调用

有效的工具调用和搜索是模型自主处理更复杂任务的前提。在 BrowseComp、Wide Search 等基准测试中,M2.5 都实现了业界领先的性能表现。同时模型的泛化性也有所提升——M2.5 在面对不熟悉的脚手架环境时展现出了更稳定的性能。
在专业人类专家执行的研究任务中,使用搜索引擎只是流程中的一小部分;大部分工作需要在信息密集的网页中进行深度探索。为此我们构建了 RISE(Realistic Interactive Search Evaluation)来测量模型在真实专业任务中的搜索能力。结果显示 M2.5 在真实场景的专家级搜索任务中表现卓越。
相较于前代模型,M2.5 在处理智能体任务时也展现出更优的决策能力:它学会了用更精准的搜索轮次和更好的 token 效率来解决问题。例如在 BrowseComp、Wide Search 和 RISE 等多个智能体任务中,M2.5 都用更少的轮次取得了更好的结果,相比 M2.1 减少了约 20% 的轮次使用量。这说明模型已不仅是在把答案做对,更是在用更高效率的路径推理出结果。
办公场景
M2.5 被训练为能在办公场景中产出真正可交付的成果。为此我们与金融、法律、社会科学等领域的资深专家展开了深度合作。他们设计需求、提供反馈、参与标准制定,并直接参与数据构建,将行业内的隐性知识带入了模型的训练流程。基于此,M2.5 在 Word、PPT、Excel 财务建模等高价值工作场景中实现了显著的能力提升。在评估侧,我们构建了内部协作智能体评估框架(GDPval-MM),通过成对比较同时评估交付物的质量和智能体轨迹的专业性,同时监控全流程的 token 开销来估算模型在现实场景中的生产力收益。与其他主流模型的对比中取得了 59.0% 的平均胜率。

效率
现实世界充满截止日期与时间限制,任务完成速度是实际刚需。模型完成任务耗时取决于其任务分解效能、token 利用效率和推理速度。M2.5 原生服务速率达每秒 100 个 token,是其他前沿模型的近两倍。此外,我们的强化学习机制激励模型进行高效推理与最优任务分解。基于这三大因素,M2.5 在复杂任务中能实现显著的时间节省。
以 SWE-Bench Verified 测试为例,M2.5 平均每个任务消耗 352 万 token,而 M2.1 消耗 372 万 token。得益于并行工具调用等能力提升,端到端运行时间从平均 31.3 分钟降至 22.8 分钟,提速 37%。该运行时间与 Claude Opus 4.6 的 22.9 分钟持平,而单任务总成本仅为后者的 10%。
成本
我们设计 M2 系列基座模型的目标是实现复杂智能体应用无需顾虑成本。M2.5 已接近达成该目标。我们发布 M2.5 和 M2.5-Lightning 两个版本,能力相同但速度有别。M2.5-Lightning 稳态吞吐达每秒 100token,比其他前沿模型快两倍,输入 token 百万成本 0.3 美元,输出 token 百万成本 2.4 美元。吞吐 50token/秒的 M2.5 成本减半。两版本均支持缓存,按输出价格计算,M2.5 成本仅为 Opus、Gemini 3 Pro 和 GPT-5 的十分之一至二十分之一。
以每秒 100 输出 token 计算,M2.5 连续运行一小时成本 1 美元;50TPS 时价格降至 0.3 美元。换言之,1 万美元可维持 4 个 M2.5 实例全年不间断运行。
进化速率
从去年 10 月下旬至今的三个半月里,我们相继发布 M2、M2.1 和 M2.5,模型进化速度超出最初预期。在备受推崇的 SWE-Bench Verified 基准测试中,M2 系列的进步速度显著快于 Claude、GPT 和 Gemini 等同类模型家族。

强化学习的规模化发展
上述进展的核心驱动力之一在于强化学习的规模化应用。随着模型训练过程的推进,我们也在持续收获其能力提升带来的效益。目前公司内部绝大多数任务与工作场景均已转化为强化学习的训练环境,此类环境数量迄今已达数十万量级。与此同时,我们在智能体强化学习框架、算法设计、奖励信号机制及基础设施工程等领域开展了系统性工作,以支撑强化学习训练的持续规模化扩展。
Forge——原生智能体强化学习框架
我们自主研发的原生智能体强化学习框架 Forge,通过引入中间层实现了底层训练 - 推理引擎与智能体的完全解耦。该架构既能支持任意智能体的集成,又能优化模型在智能体框架与工具间的泛化能力。为提升系统吞吐量,我们优化了异步调度策略以平衡系统吞吐与样本非策略性,并创新设计了树状结构训练样本合并策略,最终实现约 40 倍的训练加速效果。

智能体强化学习算法与奖励设计
在算法层面,我们延续使用了去年初提出的 CISPO 算法,以确保混合专家模型在大规模训练中的稳定性。针对智能体推演中长上下文带来的信用分配难题,我们引入了过程奖励机制,实现对生成质量的端到端监控。此外,为深度契合用户体验,我们通过智能体轨迹评估任务完成时长,实现了模型智能度与响应速度的最优平衡。

MiniMax 智能体:M2.5 作为专业员工
M2.5 已全面部署于 MiniMax 智能体,提供最佳智能体体验。
我们已将核心信息处理能力提炼为标准化的办公技能,深度集成于 MiniMax 智能体中。在 MAX 模式下,当处理 Word 排版、PPT 编辑、Excel 计算等任务时,MiniMax 智能体会根据文件类型自动加载相应办公技能,提升任务输出质量。
此外,用户可将办公技能与特定行业专业知识相结合,创建可复用的专家模块以适应具体任务场景。
以行业研究为例:通过将成熟的研究框架 SOP(标准操作流程)与 Word 技能相结合,智能体可严格遵循既定框架自动获取数据、整理分析逻辑并输出格式规范的研究报告——而非仅生成原始文本段落。在金融建模场景中,通过将机构专有的建模标准与 Excel 技能结合,智能体可按照特定风控逻辑和计算标准自动生成并验证复杂金融模型,而非简单输出基础表格。
截至目前,用户已在 MiniMax 智能体上构建了超过 10,000 个专家模块,且数量仍在快速增长。MiniMax 也针对办公、金融、编程等高频场景,在智能体平台上构建了多套深度优化、开箱即用的专家套件。
MiniMax 自身已成为首批受益于 M2.5 能力的企业。在公司日常运营中,30% 的整体任务由 M2.5 自主完成,覆盖研发、产品、销售、人力资源及财务等部门——渗透率持续攀升。在编程场景表现尤为突出,M2.5 生成的代码占新提交代码量的 80%。
使用指南
MiniMax 智能体平台:https://agent.minimax.io/
MiniMax API 开放平台:https://platform.minimax.io/
本地化部署指南
从 HuggingFace 仓库下载模型:https://huggingface.co/MiniMaxAI/MiniMax-M2.5
推荐使用以下推理框架(按字母顺序排列)部署模型:
SGLang 框架
建议使用 SGLang 框架部署 MiniMax-M2.5 模型。具体操作请参考我们的 SGLang 中文部署指南。
vLLM
我们推荐使用 vLLM 来部署 MiniMax-M2.5。请参阅我们的 vLLM 部署指南。
Transformers
我们推荐使用 Transformers 来部署 MiniMax-M2.5。请参考我们的 Transformers 部署指南。
KTransformers
我们推荐使用 KTransformers 来部署 MiniMax-M2.5。具体操作请参考 KTransformers 部署指南
ModelScope
你也可以从 modelscope 获取模型权重。
推理参数
我们推荐使用以下参数以获得最佳性能:temperature=1.0,top_p = 0.95,top_k = 40。默认系统提示:
You are a helpful assistant. Your name is MiniMax-M2.5 and is built by MiniMax.
工具调用指南
请参阅我们的 工具调用指南。
联系我们
通过 [email protected] 联系我们。
附录
M2.5 的更多基准测试结果:
| Benchmark | MiniMax-M2.5 | MiniMax-M2.1 | Claude Sonnet 4.5 | Claude Opus 4.5 | Claude Opus 4.6 | Gemini 3 Pro | GPT-5.2 (thinking) |
|---|---|---|---|---|---|---|---|
| AIME25 | 86.3 | 83.0 | 88.0 | 91.0 | 95.6 | 96.0 | 98.0 |
| GPQA-D | 85.2 | 83.0 | 83.0 | 87.0 | 90.0 | 91.0 | 90.0 |
| HLE w/o tools | 19.4 | 22.2 | 17.3 | 28.4 | 30.7 | 37.2 | 31.4 |
| SciCode | 44.4 | 41.0 | 45.0 | 50.0 | 52.0 | 56.0 | 52.0 |
| IFBench | 70.0 | 70.0 | 57.0 | 58.0 | 53.0 | 70.0 | 75.0 |
| AA-LCR | 69.5 | 62.0 | 66.0 | 74.0 | 71.0 | 71.0 | 73.0 |
评估方法:
SWE 基准测试:SWE-bench Verified、SWE-bench Multilingual、SWE-bench-pro 和 Multi-SWE-bench 在内部基础设施上使用 Claude Code 作为脚手架进行测试,覆盖默认系统提示词,结果取 4 次运行平均值。此外,SWE-bench Verified 还在 Droid 和 Opencode 脚手架上使用默认提示词进行了评估。Terminal Bench 2:使用 Claude Code 2.0.64 作为评估脚手架进行测试。修改了部分问题的 Dockerfiles 以确保问题本身的正确性,统一将沙箱规格扩展至 8 核 CPU 和 16GB 内存,超时时间统一设置为 7,200 秒,并为每个问题配备基础工具集(ps、curl、git 等)。虽未对超时进行重试,但增加了对脚手架空响应的检测机制,对最终响应为空的任务进行重试以处理各种异常中断情况。最终结果取 4 次运行平均值。VIBE-Pro:内部基准。使用 Claude Code 作为脚手架自动验证程序的交互逻辑和视觉效果。所有分数均通过统一流程计算,包含需求集、容器化部署和动态交互环境。最终结果取 3 次运行平均值。BrowseComp:采用与 WebExplorer(Liu 等人,2025 年)相同的智能体框架。当令牌使用量超过最大上下文的 30% 时,丢弃全部历史记录。Wide Search:采用与 WebExplorer(Liu 等人,2025 年)相同的智能体框架。RISE:内部基准。包含人类专家的真实问题,评估模型在复杂网络交互场景下的多步信息检索与推理能力。在 WebExplorer(Liu 等人,2025 年)智能体框架基础上增加了基于 Playwright 的浏览器工具套件。GDPval-MM:内部基准。基于开源 GDPval 测试集,使用定制化智能体评估框架,由 LLM-as-a-judge 对完整轨迹进行成对胜/平/负判断。单任务平均令牌成本根据各厂商官方 API 定价(无缓存)计算。MEWC:内部基准。基于 MEWC(微软 Excel 世界锦标赛)构建,包含 2021-2026 年 Excel 电竞比赛主赛区及其他赛区的 179 道赛题,评估模型理解竞赛 Excel 表格并使用 Excel 工具解题的能力。通过逐个比对输出单元格与答案单元格的值计算得分。金融建模:内部基准。主要包含行业专家构建的金融建模问题,涉及通过 Excel 工具执行的端到端研究分析任务。每个问题均采用专家设计的评分标准进行打分。最终结果取 3 次运行平均值。AIME25 ~ AA-LCR:基于 Artificial Analysis 智能指数排行榜涵盖的公开评测集及评测方法,通过内部测试获得。


