引言
自近期起,AI 圈的热词除了'龙虾',又多了一个'自我进化'。当全行业还在忙着适配 OpenClaw、追逐榜单跑分时,MiniMax 已经让模型具备了主动演化能力。
在继 M2.5 发布仅一个月后,MiniMax 发布了新一代 Agent 旗舰大模型 M2.7。官方给它的定义是:MiniMax 第一代深度参与自身进化的模型。这不仅仅是一次常规的版本号更新,它首次展示了'模型自我进化'的路径,标志着 AI 正从被动的'工具阶段'迈向具备主动演化能力的'系统阶段'。
本文将基于实测数据,深度拆解 M2.7 的技术突破与真实场景表现,并附上一份本地体验指南——通过 Ollama 在终端中轻松调用云端 M2.7,无需昂贵硬件,一键开启 AI 协作。
核心颠覆:不仅仅是 Agent,更是'造 Agent 的人'
过去一年,业界大多把精力卷在了外部的 Agent Harness 上,任务编排与工具链越做越重。但面对真实的复杂业务,外围脚手架搭得再精巧,一旦底层模型的指令遵循率掉链子、长上下文一断档,整个流水线往往在第四步、第五步就会全盘崩溃。
M2.7 最大的看点,在于它试图从底座层面强行破局——构建了一套名为'Agent Harness'的体系,把复杂的 Harness 构建逻辑直接内化到了模型内部。简单来说,以前的模型是'手里有什么工具就用什么',而现在的 M2.7 已经能'自己造工具',甚至能优化自身的工作流程。
在 MiniMax 的内部研发场景中,M2.7 已能承担 30%-50% 的工作量。例如在强化学习实验中,只要研究员给出初始想法,M2.7 就能自动进行文献调研、配置实验环境、监控运行状态、排查日志 Bug,甚至提交合并请求和冒烟测试。
更令人惊叹的是它的递归迭代能力。在优化内部 Agent Harness 代码的测试中,M2.7 全程零人工干预,硬生生跑出了一个超过 100 轮的迭代循环——它自己分析失败轨迹,自己规划改动,改完脚手架代码再去跑评测,最后对比结果决定是保留还是回退。在不停歇的自我互搏中,它自己发现了最优解,最终让评测集上的效果直接拔高了 30%。这种'自我进化'的雏形,正是 M2.7 区别于所有竞品的最大标签。
硬核测评数据:重构软件工程与办公场景的边界
口号喊得响,还得看指标。M2.7 在各大基准测试中展现出了国际一线的实力,尤其是在需要'真刀真枪'干活的工程和办公领域。
1. 软件工程:从'写代码'到'当 SRE',再到'自主搭系统'
M2.7 不再满足于生成代码片段,它已经能像个资深网站可靠性工程师一样工作,甚至能自主搭建完整的开发 Agent 系统。
- SWE-bench Pro(核心代码能力):M2.7 取得了 56.22% 的正确率,几乎追平 Claude Opus 4.6 的顶级水平。
- VIBE-Pro(端到端项目交付):得分 55.6%,这意味着无论是 Web、Android 还是仿真类需求,可以直接交给它完成。
- Terminal Bench 2(复杂系统理解):得分 57.0%,印证了其对软件系统运行逻辑的深层理解。
- PinchBench(OpenClaw 真实任务执行):M2.7 以 86.2% 的任务成功率快速登顶,拿下全球第四,仅次于 Claude Sonnet 4.6、GPT-5.4、Claude Opus 4.6,刷新了国内大模型在该榜单的最好成绩。
真实场景案例:在面对线上生产环境告警时,M2.7 能自动关联监控指标做因果推理,主动连接数据库验证根因,甚至知道用非阻塞方式建索引来'止血',然后再提代码合并。据称,这已将部分线上故障的恢复时间缩短至 3 分钟以内。
2. 专业办公:初级分析师已就位,Excel 不再是'压缩包'
在办公场景,M2.7 显著提升了文档处理的能力,不再只是文字生成,而是真正的'编辑'与'分析'。业内许多大数据团队、BI 类产品正在进行的二次创业,M2.7 已经能以一己之力完成大半。
- GDPval-AA:M2.7 的 ELO 得分高达 1495,在开源模型中排名第一,超越了 GPT-5.3。
- 复杂技能遵循:在包含 40 个复杂技能(每个技能描述超过 2000 token)的场景下,其遵循率依然高达 97%。
真实场景案例:丢给它一份包含 406 行×147 列、充满非标数据的真实业务报表(这种报表曾让其他 ChatBot 直接卡死或截断),M2.7 能自主编写 Python 脚本完整读取数据,自动完成集团口径合并、金额汇总,还能基于数据提供业务发展的四个关键洞察,并直接生成 Excel 透视表和可交互的可视化网页。这已经是一个标准的初级分析师工作流。
3. 多智能体协作与'龙虾测试'
M2.7 原生支持多智能体协作,无需外部框架即可组建 Agent Teams。在 MM-Claw(龙虾测试)中,其正确率达到 62.7%,直逼 Claude Sonnet 4.6。

