万亿参数的开源模型,能接管编程工具当全自动码农,还能给自己的大脑写代码实现?本文对蚂蚁百灵团队发布的 Ring-2.5-1T 进行了专项测试。
Ring-2.5-1T 是全球首个采用混合线性注意力架构的万亿参数开源思考模型。其在 IMO 2025、CMO 2025 等赛事中表现优异,GAIA2 通用 Agent 评测达到开源 SOTA。数字虽重要,但实际能力更值得关注。
为了深入评估,我设计了一个组合证明题测试,故意在题面中隐藏了关键的'或'条件。Ring-2.5-1T 耗时 595 秒,消耗 26595 个 token,指出了题面错误并给出了反例,随后补全正确题面并使用互补配对和鸽巢原理完成了优雅证明。

该模型展现了发现输入错误并纠正的能力,这得益于其训练方法中的 Dense Reward 机制,即对推理过程的每一步进行打分,而非仅看最终答案。
架构解析:万亿参数为何更快?
Ring-2.5-1T 的核心差异化在于混合线性注意力架构。传统 Transformer 的注意力计算量随上下文长度平方增长,而 Ring 将注意力层分为两种:
- 1/8 的层使用 MLA(Multi-Head Latent Attention):传统精确注意力,逐字逐句分析,准确但慢。
- 7/8 的层使用 Lightning Linear Attention:线性复杂度,快速扫描大段内容。

这种 1:7 的比例类似于阅读技术手册时的速读与精读结合。效果显著:32K 以上的长生成,访存量降低 10 倍以上,吞吐量提升 3 倍以上。
尽管激活参数达 63B,比 Kimi K2 的 32B 多出一倍,但由于大部分层使用了线性注意力,实际推理速度反而更快。官方在 H20 8 卡集群上的测试显示,生成长度超过 32K 后,Ring 的解码吞吐显著领先同级别模型。

此外,模型结合了大规模全异步 Agentic RL 训练,使其在数学、代码、逻辑等高难推理任务及智能体搜索、编码、工具调用等长程任务执行上均达到开源领先水平。

核心组件自实现:1174 秒完成 PyTorch 开发
测试中最具挑战性的环节是让 Ring-2.5-1T 用 PyTorch 从零实现 Lightning Linear Attention,即其架构中 7/8 层使用的核心组件。
具体要求包括:
- 实现因果线性注意力,避免 O(n²) 显式注意力矩阵
- 支持 ELU+1 和 ReLU 两种 kernel function
- 实现标准 softmax attention 作为对照
- 编写 benchmark 脚本对比不同序列长度(512 到 16384)的时间与显存
- 生成 matplotlib 可视化
Ring 耗时 1174 秒,消耗 25612 个 token。其思考链详细分析了向量化 cumsum 方案与循环方案的权衡,最终选择了平衡方案。




