开源万亿模型 Ring-2.5-1T 深度评测：架构解析与工程实践

万亿参数的开源模型，能接管编程工具当全自动码农，还能给自己的大脑写代码实现？本文对蚂蚁百灵团队发布的 Ring-2.5-1T 进行了专项测试。

Ring-2.5-1T 是全球首个采用混合线性注意力架构的万亿参数开源思考模型。其在 IMO 2025、CMO 2025 等赛事中表现优异，GAIA2 通用 Agent 评测达到开源 SOTA。数字虽重要，但实际能力更值得关注。

为了深入评估，我设计了一个组合证明题测试，故意在题面中隐藏了关键的'或'条件。Ring-2.5-1T 耗时 595 秒，消耗 26595 个 token，指出了题面错误并给出了反例，随后补全正确题面并使用互补配对和鸽巢原理完成了优雅证明。

文章配图

该模型展现了发现输入错误并纠正的能力，这得益于其训练方法中的 Dense Reward 机制，即对推理过程的每一步进行打分，而非仅看最终答案。

Ring-2.5-1T 的核心差异化在于混合线性注意力架构。传统 Transformer 的注意力计算量随上下文长度平方增长，而 Ring 将注意力层分为两种：

文章配图

这种 1:7 的比例类似于阅读技术手册时的速读与精读结合。效果显著：32K 以上的长生成，访存量降低 10 倍以上，吞吐量提升 3 倍以上。

尽管激活参数达 63B，比 Kimi K2 的 32B 多出一倍，但由于大部分层使用了线性注意力，实际推理速度反而更快。官方在 H20 8 卡集群上的测试显示，生成长度超过 32K 后，Ring 的解码吞吐显著领先同级别模型。

文章配图

此外，模型结合了大规模全异步 Agentic RL 训练，使其在数学、代码、逻辑等高难推理任务及智能体搜索、编码、工具调用等长程任务执行上均达到开源领先水平。

文章配图

测试中最具挑战性的环节是让 Ring-2.5-1T 用 PyTorch 从零实现 Lightning Linear Attention，即其架构中 7/8 层使用的核心组件。

具体要求包括：

更多推荐文章