MiniMax-M2.1 模型开源发布与核心能力评测

MiniMax-M2.1 现已正式开源交付。此次发布旨在打破高性能智能体必须闭门造车的刻板印象，专门优化了模型在编码、工具使用、指令遵循和长远规划方面的稳健性。支持自动化多语言软件开发及复杂多步骤办公流程，构建新一代自主应用程序。

MiniMax-M2.1 API 已在开放平台上线：https://platform.minimax.io/docs/guides/text-generation
基于 MiniMax-M2.1 构建的产品 MiniMax Agent 已公开可用：https://agent.minimax.io/
模型权重已开源，支持本地部署：https://huggingface.co/MiniMaxAI/MiniMax-M2.1

MiniMax-M2.1 在核心软件工程排行榜上相较 M2 实现了显著提升。它在多语言场景中表现尤为突出，超越了 Claude Sonnet 4.5，并接近 Claude Opus 4.5 的水平。

Benchmark	MiniMax-M2.1	MiniMax-M2	Claude Sonnet 4.5	Claude Opus 4.5	Gemini 3 Pro	GPT-5.2 (thinking)	DeepSeek V3.2
SWE-bench Verified	74.0	69.4	77.2	80.9	78.0	80.0	73.1
Multi-SWE-bench	49.4	36.2	44.3	50.0	42.7	x	37.4
SWE-bench Multilingual	72.5	56.5	68	77.5	65.0	72.0	70.2
Terminal-bench 2.0	47.9	30.0	50.0	57.8	54.2	54.0	46.4

我们还在多种编码代理框架上对 MiniMax-M2.1 进行了 SWE-bench Verified 评估。结果表明该模型具有卓越的框架泛化能力和强大的稳定性。

此外，在包括测试用例生成、代码性能优化、代码审查和指令遵循等具体基准测试中，MiniMax-M2.1 相较 M2 展现出全面提升。在这些专业领域，其表现持续达到或超越 Claude Sonnet 4.5 的水平。

Benchmark

SWE-bench Verified (Droid)	71.3	68.1	72.3	75.2	x	x	67.0
SWE-bench Verified (mini-swe-agent)	67.0	61.0	70.6	74.4	71.8	74.2	60.0
SWT-bench	69.3	32.8	69.5	80.2	79.7	80.7	62.0
SWE-Perf	3.1	1.4	3.0	4.7	6.5	3.6	0.9
SWE-Review	8.9	3.4	10.5	16.2	x	x	6.4
OctoCodingbench	26.1	13.3	22.8	36.2	22.9	x	26.0

Benchmark	MiniMax-M2.1	MiniMax-M2	Claude Sonnet 4.5	Claude Opus 4.5	Gemini 3 Pro
VIBE (Average)	88.6	67.5	85.2	90.7	82.4
VIBE-Web	91.5	80.4	87.3	89.1	89.5
VIBE-Simulation	87.1	77.0	79.1	84.0	89.2
VIBE-Android	89.7	69.2	87.5	92.2	78.7
VIBE-iOS	88.0	39.5	81.2	90.0	75.8
VIBE-Backend	86.7	67.8	90.8	98.0	78.7

Benchmark	MiniMax-M2.1	MiniMax-M2	Claude Sonnet 4.5	Claude Opus 4.5	Gemini 3 Pro	GPT-5.2 (thinking)	DeepSeek V3.2
Toolathlon	43.5	16.7	38.9	43.5	36.4	41.7	35.2
BrowseComp	47.4	44.0	19.6	37.0	37.8	65.8	51.4
BrowseComp (context management)	62.0	56.9	26.1	57.8	59.2	70.0	67.6
AIME25	83.0	78.0	88.0	91.0	96.0	98.0	92.0
MMLU-Pro	88.0	82.0	88.0	90.0	90.0	87.0	86.0
GPQA-D	83.0	78.0	83.0	87.0	91.0	90.0	84.0
HLE w/o tools	22.2	12.5	17.3	28.4	37.2	31.4	22.2
LCB	81.0	83.0	71.0	87.0	92.0	89.0	86.0
SciCode	41.0	36.0	45.0	50.0	56.0	52.0	39.0
IFBench	70.0	72.0	57.0	58.0	70.0	75.0	61.0
AA-LCR	62.0	61.0	66.0	74.0	71.0	73.0	65.0
𝜏²-Bench Telecom	87.0	87.0	78.0	90.0	87.0	85.0	91.0

更多推荐文章