MiniMax AI 开源 MiniMax-M2.1

MiniMax AI 开源 MiniMax-M2.1

遇见MiniMax-M2.1

今天我们正式将MiniMax-M2.1交付给开源社区。这次发布不仅是参数的更新,更是向普及顶级智能体能力迈出的重要一步。

M2.1的诞生旨在打破高性能智能体必须闭门造车的刻板印象。我们专门优化了模型在编码、工具使用、指令遵循和长远规划方面的稳健性。从自动化多语言软件开发到执行复杂的多步骤办公流程,MiniMax-M2.1让开发者能够构建新一代自主应用程序——同时保持完全透明、可控且易于获取。

我们相信真正的智能应该触手可及。M2.1是我们对未来的承诺,也是您手中的强大新工具。

在这里插入图片描述

使用方法

  • MiniMax-M2.1 API 现已在 MiniMax 开放平台上线:https://platform.minimax.io/docs/guides/text-generation
  • 基于 MiniMax-M2.1 构建的产品 MiniMax Agent 现已公开可用:https://agent.minimax.io/
  • MiniMax-M2.1 模型权重现已开源,支持本地部署和使用:https://huggingface.co/MiniMaxAI/MiniMax-M2.1

基准测试

MiniMax-M2.1 在核心软件工程排行榜上相较 M2 实现了显著提升。它在多语言场景中表现尤为突出,超越了 Claude Sonnet 4.5,并接近 Claude Opus 4.5 的水平。

BenchmarkMiniMax-M2.1MiniMax-M2Claude Sonnet 4.5Claude Opus 4.5Gemini 3 ProGPT-5.2 (thinking)DeepSeek V3.2
SWE-bench Verified74.069.477.280.978.080.073.1
Multi-SWE-bench49.436.244.350.042.7x37.4
SWE-bench Multilingual72.556.56877.565.072.070.2
Terminal-bench 2.047.930.050.057.854.254.046.4

我们还在多种编码代理框架上对MiniMax-M2.1进行了SWE-bench Verified评估。结果表明该模型具有卓越的框架泛化能力和强大的稳定性。

此外,在包括测试用例生成、代码性能优化、代码审查和指令遵循等具体基准测试中,MiniMax-M2.1相较M2展现出全面提升。在这些专业领域,其表现持续达到或超越Claude Sonnet 4.5的水平。

BenchmarkMiniMax-M2.1MiniMax-M2Claude Sonnet 4.5Claude Opus 4.5Gemini 3 ProGPT-5.2 (thinking)DeepSeek V3.2
SWE-bench Verified (Droid)71.368.172.375.2xx67.0
SWE-bench Verified (mini-swe-agent)67.061.070.674.471.874.260.0
SWT-bench69.332.869.580.279.780.762.0
SWE-Perf3.11.43.04.76.53.60.9
SWE-Review8.93.410.516.2xx6.4
OctoCodingbench26.113.322.836.222.9x26.0

为评估模型"从零到一"架构完整可用应用的全栈能力,我们建立了创新性评测基准VIBE(应用开发视觉交互执行基准)。该套件包含Web、仿真、Android、iOS和后台五大核心子集,突破性地采用"智能体即验证器"(Agent-as-a-Verifier)范式,可在真实运行时环境中自动评估生成应用的交互逻辑与视觉呈现效果。

MiniMax-M2.1在VIBE综合基准上表现优异,平均得分达88.6分,展现出强劲的全栈开发能力,尤其在VIBE-Web(91.5)和VIBE-Android(89.7)子项上优势显著。

BenchmarkMiniMax-M2.1MiniMax-M2Claude Sonnet 4.5Claude Opus 4.5Gemini 3 Pro
VIBE (Average)88.667.585.290.782.4
VIBE-Web91.580.487.389.189.5
VIBE-Simulation87.177.079.184.089.2
VIBE-Android89.769.287.592.278.7
VIBE-iOS88.039.581.290.075.8
VIBE-Backend86.767.890.898.078.7

MiniMax-M2.1在长周期工具使用和综合智能指标方面也较M2版本展现出持续改进。

BenchmarkMiniMax-M2.1MiniMax-M2Claude Sonnet 4.5Claude Opus 4.5Gemini 3 ProGPT-5.2 (thinking)DeepSeek V3.2
Toolathlon43.516.738.943.536.441.735.2
BrowseComp47.444.019.637.037.865.851.4
BrowseComp (context management)62.056.926.157.859.270.067.6
AIME2583.078.088.091.096.098.092.0
MMLU-Pro88.082.088.090.090.087.086.0
GPQA-D83.078.083.087.091.090.084.0
HLE w/o tools22.212.517.328.437.231.422.2
LCB81.083.071.087.092.089.086.0
SciCode41.036.045.050.056.052.039.0
IFBench70.072.057.058.070.075.061.0
AA-LCR62.061.066.074.071.073.065.0
𝜏²-Bench Telecom87.087.078.090.087.085.091.0
评估方法说明SWE-bench 验证版:在内部基础设施上使用 Claude CodeDroidmini-swe-agent 作为脚手架进行测试。默认采用 Claude Code 指标。使用 Claude Code 时,系统默认提示词被覆盖。结果为 4 次运行的平均值。Multi-SWE-Bench & SWE-bench 多语言版 & SWT-bench & SWE-Perf:在内部基础设施上使用 Claude Code 作为脚手架测试,系统默认提示词被覆盖。结果为 4 次运行的平均值。Terminal-bench 2.0:在我们的内部评估框架中使用 Claude Code 测试。我们验证了完整数据集并修复了环境问题。移除了超时限制,其余配置与官方设置保持一致。结果为 4 次运行的平均值。SWE Review:基于 SWE 框架构建的内部代码缺陷审查基准,涵盖多语言和多场景,同时评估缺陷召回率和幻觉率。仅当模型准确识别目标缺陷且确保所有其他报告结果有效且无幻觉时,审查才被视为"正确"。所有评估均使用 Claude Code 执行,最终结果反映每个测试用例 4 次独立运行的平均值。我们计划近期开源该基准。OctoCodingbench:面向复杂开发场景中代码代理长程指令跟随的内部基准,在跨技术栈和脚手架框架的动态环境中进行端到端行为监督。核心目标是评估模型整合与执行"复合指令约束"的能力——包括系统提示(SP)、用户查询、记忆、工具模式及 Agents.mdClaude.mdSkill.md 等规范。采用严格的"单违规即失败"评分机制,最终结果为 4 次运行的平均通过率,量化模型将静态约束转化为精确行为的鲁棒性。我们计划近期开源该基准。VIBE:使用 Claude Code 作为脚手架自动验证程序交互逻辑与视觉效果的内部分析基准,通过需求集、容器化部署和动态交互环境组成的统一流程计算得分。最终结果为 3 次运行的平均值。我们已在 VIBE 开源该基准。Toolathlon:评估协议与原始论文保持一致。BrowseComp:所有分数均使用与 WebExplorer(Liu 等,2025 年)相同的智能体框架获取,仅对工具描述进行微调。我们采用了与 WebExplorer 相同的 103 样本 GAIA 纯文本验证子集。BrowseComp(上下文管理):当 token 使用量超过最大上下文窗口的 30% 时,保留首个 AI 响应、最后五个 AI 响应及工具输出,其余内容将被丢弃。AIME25 ~ 𝜏²-Bench Telecom:基于 人工智能分析指数 引用的评估数据集和方法进行的内部测试结果。

本地部署指南

从 HuggingFace 仓库下载模型:https://huggingface.co/MiniMaxAI/MiniMax-M2.1

https://github.com/MiniMax-AI/MiniMax-M2.1

Read more

一个使用 OpenAI Python SDK 进行 API 调用的示例脚本

一、 程序文件概述与核心功能 一个典型的、结构清晰的客户端应用程序,其主要功能是与一个部署在特定基础URL上的大型语言模型(本例中为 "QwQ-32B")进行交互。程序的核心任务是向模型发送一个预设的自然语言查询("请列举近三年提出的漏洞检测技术的文献"),并完整地接收、计时并处理模型返回的文本响应。同时,它具备完善的异常处理机制,能够优雅地应对网络超时、API服务端错误以及其他未知问题。 从软件架构的角度看,该脚本扮演了客户端的角色,它通过 HTTP 协议与远端的 API 服务器 通信。其工作流程遵循典型的请求-响应模式:构建请求 -> 发送请求 -> 等待并接收响应 -> 解析响应 -> 输出结果/处理错误。 二、 代码结构与逐行解析 1. 模块导入 (import) import openai

By Ne0inhk

NewBie-image-Exp0.1从零开始:Python调用大模型生成图片教程

NewBie-image-Exp0.1从零开始:Python调用大模型生成图片教程 你是否也曾经被那些精美的动漫角色图吸引,却苦于不会画画?或者想快速生成一批风格统一的角色素材,但手动设计成本太高?今天我们要聊的这个工具,或许能彻底改变你的创作方式。 NewBie-image-Exp0.1 是一个专注于高质量动漫图像生成的大模型项目。它不仅具备强大的视觉表现力,还引入了独特的 XML 提示词机制,让你可以像写代码一样精确控制每一个角色的属性。更棒的是,现在有一个预配置好的镜像版本,省去了繁琐的环境搭建和依赖安装过程,真正实现“开箱即用”。 本文将带你一步步上手使用这个镜像,从最基础的运行测试脚本,到理解其核心功能,再到如何自定义提示词来生成你想要的画面。无论你是AI绘画的新手,还是有一定经验的技术爱好者,都能在这篇文章中找到实用的信息。 1. 镜像简介与核心优势 NewBie-image-Exp0.1 并不是一个简单的开源项目打包,而是一个经过深度优化和修复的完整推理环境。它的最大价值在于解决了原项目部署过程中常见的三大难题:环境冲突、源码Bug 和模型下载困难。 1.1

By Ne0inhk
【Python 量化入门】AKshare 保姆级使用教程:零成本获取股票 / 基金 / 期货全市场金融数据

【Python 量化入门】AKshare 保姆级使用教程:零成本获取股票 / 基金 / 期货全市场金融数据

做量化交易、财经数据分析、投资复盘的开发者和投资者,经常会遇到核心痛点:付费金融数据接口成本高、免费 API 注册流程繁琐、多市场数据分散难以整合。告别 QMT 回测烦恼!手把手教你搭建 MiniQMT+Backtrader 量化回测框架 本文就给大家详细讲解 Python 量化圈的开源神器AKshare,从安装到核心功能实战全覆盖,代码可直接复制运行,零基础也能一键获取全市场金融行情数据。 一、AKshare 是什么? AKshare 是一款基于 Python 开发的开源金融数据接口库,专为个人投资者、量化爱好者、财经数据分析人员打造,是目前国内生态最完善、维护最活跃的免费金融数据工具之一。 它支持股票、期货、基金、外汇、债券、指数、加密货币等多种主流金融市场的数据获取,核心优势如下: * 免费开源:完全开源免费,无隐藏收费,个人非商用零成本使用,无需开通付费会员 * 数据覆盖全面:A 股、

By Ne0inhk

Python 2026 年发展局势:AI 时代的 “通用基础设施语言”

2026 年的 Python 已从 “热门编程语言” 进化为全球数字生态的核心基础设施语言,其地位不仅稳固且进一步强化,同时也面临新的机遇与挑战,整体呈现 “一核多翼、优势固化、局部竞争” 的格局。 一、核心优势:AI + 全生态双轮驱动,地位无可替代 1. AI / 大模型领域的绝对霸主这是 Python 最核心的护城河。2026 年大模型落地、AI Agent 开发、多模态应用、低代码 AI 工具等场景中,Python 依然是95% 以上开发者的首选语言: * 生态垄断:PyTorch 3.0、TensorFlow 2.18、LangChain 2.0、Transformers 等核心框架均以 Python 为第一开发语言; * 效率优势:

By Ne0inhk