Kimi2.5 核心技术：注意力残差

Attention Residuals 详解

Attention Residuals（注意力残差）是 Kimi 团队在 2026 年 3 月提出的一项突破性架构创新。它挑战了深度学习领域沿用十年的残差连接（Residual Connections）设计，用可学习的注意力机制取代了传统的固定权重加法，让模型的每一层都能智能地选择从前面的哪些层获取信息。

下面我从核心原理、生动举例和实际应用三个层面，为你系统拆解这项技术。

一、核心原理：为什么需要 Attention Residuals？

1. 传统残差连接的'隐痛'

自从 2015 年 ResNet 诞生以来，残差连接 y = x + f(x) 就成了几乎所有深度神经网络的标配。但它的信息聚合方式非常粗糙：把所有前面层的输出无差别地等权相加。

这带来了两个严重问题：

问题	表现	后果
信息稀释	浅层特征在向深层传递时，其相对贡献随深度线性衰减	第 50 层想用第 2 层的信息，但已被中间 48 层的信息层层冲淡
隐状态爆炸	深层模块需要输出更大模长的激活值来维持信号强度	数值不稳定，梯度分布不均，训练收敛困难

这就是论文中反复提到的 PreNorm 稀释问题（PreNorm dilution problem）。

2. 时间 - 深度对偶性：一个天才的类比

Kimi 团队发现了一个深刻的数学结构：网络的深度维度和序列的时间维度本质上是同构的。

'将注意力旋转 90°'——论文作者之一 Yulun Du

这句话的意思是：

横轴（时间/序列）：Transformer 用注意力机制让每个 token 去关注序列中任意位置的 token，解决了 RNN 的遗忘问题
纵轴（深度）：为什么不让每一层去关注前面任意层的输出，解决残差连接的稀释问题？

既然注意力机制在横向上解决了 RNN 的问题，旋转 90° 放到纵向上，同样有效。

3. Attention Residuals 的数学形式

在这里插入图片描述

4. Block AttnRes：工程落地的关键

Full AttnRes 理论上完美，但在大规模训练中面临内存和通信开销爆炸的问题——每一层都需要访问所有前面层的输出。

Kimi 团队的解决方案是 Block AttnRes：

策略	做法	效果
分块压缩	将 L 层网络分成 N 个 Block（每个约 6 层），Block 内部沿用传统残差，Block 之间使用注意力	内存开销从 O(L) 降至 O(N)
跨阶段缓存

Attention Residuals 详解

下面我从核心原理、生动举例和实际应用三个层面，为你系统拆解这项技术。

一、核心原理：为什么需要 Attention Residuals？

1. 传统残差连接的'隐痛'

这带来了两个严重问题：

问题	表现	后果
信息稀释	浅层特征在向深层传递时，其相对贡献随深度线性衰减	第 50 层想用第 2 层的信息，但已被中间 48 层的信息层层冲淡
隐状态爆炸	深层模块需要输出更大模长的激活值来维持信号强度	数值不稳定，梯度分布不均，训练收敛困难

这就是论文中反复提到的 PreNorm 稀释问题（PreNorm dilution problem）。

2. 时间 - 深度对偶性：一个天才的类比

Kimi 团队发现了一个深刻的数学结构：网络的深度维度和序列的时间维度本质上是同构的。

'将注意力旋转 90°'——论文作者之一 Yulun Du

这句话的意思是：

横轴（时间/序列）：Transformer 用注意力机制让每个 token 去关注序列中任意位置的 token，解决了 RNN 的遗忘问题
纵轴（深度）：为什么不让每一层去关注前面任意层的输出，解决残差连接的稀释问题？

既然注意力机制在横向上解决了 RNN 的问题，旋转 90° 放到纵向上，同样有效。

3. Attention Residuals 的数学形式

在这里插入图片描述

4. Block AttnRes：工程落地的关键

Full AttnRes 理论上完美，但在大规模训练中面临内存和通信开销爆炸的问题——每一层都需要访问所有前面层的输出。

Kimi 团队的解决方案是 Block AttnRes：

策略	做法	效果
分块压缩	将 L 层网络分成 N 个 Block（每个约 6 层），Block 内部沿用传统残差，Block 之间使用注意力	内存开销从 O(L) 降至 O(N)
跨阶段缓存

阶段	册数	内容
小学数学	6 册	加减乘除、分数小数
中学数学	3 册	代数、几何基础
高中数学	3 册	函数、解析几何
高等数学	2 册	微积分、线性代数

机制	类比做法	效果
Standard Residual	把 14 册书的知识点等量混合后使用	高等数学的重要知识被稀释，解决问题效果差
Full AttnRes	按权重分配：高等数学最多，高中数学次之，小学最少	解决问题时更多使用高等数学，效果更好
Block AttnRes	先把每个阶段整理成摘要，再按权重使用各阶段的摘要	既高效又保留关键信息

指标	效果
计算效率	同等验证损失下，Block AttnRes 相当于传统模型用 1.25 倍算力才能达到的效果
训练开销	端到端训练耗时增加 < 4%
推理延迟	增加 < 2%

任务类型	评测基准	提升幅度
科学推理	GPQA-Diamond	+7.5%
数学推理	Minerva Math	+3.6%
代码生成	HumanEval	+3.1%
知识理解	MMLU	+1.1%

现象	传统残差	Attention Residuals
输出量级	随深度单调增长（逐层放大）	在每个 Block 边界重置，呈周期性模式
梯度分布	早期层梯度过大，分布极不均匀	显著更均匀，更多层真正参与学习

Kimi2.5 核心技术：注意力残差

Attention Residuals 详解

一、核心原理：为什么需要 Attention Residuals？

1. 传统残差连接的'隐痛'

2. 时间 - 深度对偶性：一个天才的类比

3. Attention Residuals 的数学形式

4. Block AttnRes：工程落地的关键

Kimi2.5 核心技术：注意力残差

Attention Residuals 详解

一、核心原理：为什么需要 Attention Residuals？

1. 传统残差连接的'隐痛'

2. 时间 - 深度对偶性：一个天才的类比

3. Attention Residuals 的数学形式

4. Block AttnRes：工程落地的关键

更多推荐文章

相关免费在线工具

二、举例说明：用数学学习路径来类比

三、应用场景与实测效果

1. 训练效率：1.25 倍计算杠杆

2. 下游任务：推理密集型任务提升显著

3. 训练稳定性：梯度分布更均匀

4. 行业反响与未来方向

总结：Attention Residuals 核心价值一览

更多推荐文章

相关免费在线工具

维度	核心突破
原理	用可学习的 Softmax 注意力权重，取代传统残差的固定等权加法
创新	发现'时间 - 深度对偶性'，将注意力机制'旋转 90°'应用到深度轴上
工程	Block AttnRes 分块策略，将开销控制在训练 <4%、推理 <2%
效果	1.25 倍计算效率提升，推理密集型任务（GPQA）提升 7.5%
意义	撬动了深度学习沿用十年的'祖传地基'，开启架构创新新阶段

Kimi2.5 核心技术：注意力残差

Attention Residuals 详解

一、核心原理：为什么需要 Attention Residuals？

1. 传统残差连接的'隐痛'

2. 时间 - 深度对偶性：一个天才的类比

3. Attention Residuals 的数学形式

4. Block AttnRes：工程落地的关键

Kimi2.5 核心技术：注意力残差

Attention Residuals 详解

一、核心原理：为什么需要 Attention Residuals？

1. 传统残差连接的'隐痛'

2. 时间 - 深度对偶性：一个天才的类比

3. Attention Residuals 的数学形式

4. Block AttnRes：工程落地的关键

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、举例说明：用数学学习路径来类比

三、应用场景与实测效果

1. 训练效率：1.25 倍计算杠杆

2. 下游任务：推理密集型任务提升显著

3. 训练稳定性：梯度分布更均匀

4. 行业反响与未来方向

总结：Attention Residuals 核心价值一览

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具