Attention Residuals 详解
Attention Residuals(注意力残差)是 Kimi 团队在 2026 年 3 月提出的一项突破性架构创新。它挑战了深度学习领域沿用十年的残差连接(Residual Connections)设计,用可学习的注意力机制取代了传统的固定权重加法,让模型的每一层都能智能地选择从前面的哪些层获取信息。
下面我从核心原理、生动举例和实际应用三个层面,为你系统拆解这项技术。
一、核心原理:为什么需要 Attention Residuals?
1. 传统残差连接的'隐痛'
自从 2015 年 ResNet 诞生以来,残差连接 y = x + f(x) 就成了几乎所有深度神经网络的标配。但它的信息聚合方式非常粗糙:把所有前面层的输出无差别地等权相加。
这带来了两个严重问题:
| 问题 | 表现 | 后果 |
|---|---|---|
| 信息稀释 | 浅层特征在向深层传递时,其相对贡献随深度线性衰减 | 第 50 层想用第 2 层的信息,但已被中间 48 层的信息层层冲淡 |
| 隐状态爆炸 | 深层模块需要输出更大模长的激活值来维持信号强度 | 数值不稳定,梯度分布不均,训练收敛困难 |
这就是论文中反复提到的 PreNorm 稀释问题(PreNorm dilution problem)。
2. 时间 - 深度对偶性:一个天才的类比
Kimi 团队发现了一个深刻的数学结构:网络的深度维度和序列的时间维度本质上是同构的。
'将注意力旋转 90°'——论文作者之一 Yulun Du
这句话的意思是:
- 横轴(时间/序列):Transformer 用注意力机制让每个 token 去关注序列中任意位置的 token,解决了 RNN 的遗忘问题
- 纵轴(深度):为什么不让每一层去关注前面任意层的输出,解决残差连接的稀释问题?
既然注意力机制在横向上解决了 RNN 的问题,旋转 90° 放到纵向上,同样有效。
3. Attention Residuals 的数学形式

4. Block AttnRes:工程落地的关键
Full AttnRes 理论上完美,但在大规模训练中面临内存和通信开销爆炸的问题——每一层都需要访问所有前面层的输出。
Kimi 团队的解决方案是 Block AttnRes:
| 策略 | 做法 | 效果 |
|---|---|---|
| 分块压缩 | 将 L 层网络分成 N 个 Block(每个约 6 层),Block 内部沿用传统残差,Block 之间使用注意力 | 内存开销从 O(L) 降至 O(N) |
| 跨阶段缓存 |

