【AI】kimi2.5核心技术:注意力残差

Attention Residuals 详解

Attention Residuals(注意力残差)是 Kimi 团队在 2026 年 3 月提出的一项突破性架构创新。它挑战了深度学习领域沿用十年的残差连接(Residual Connections)设计,用可学习的注意力机制取代了传统的固定权重加法,让模型的每一层都能智能地选择从前面的哪些层获取信息。

下面我从核心原理、生动举例和实际应用三个层面,为你系统拆解这项技术。

一、核心原理:为什么需要 Attention Residuals?

1. 传统残差连接的“隐痛”

自从 2015 年 ResNet 诞生以来,残差连接 y = x + f(x) 就成了几乎所有深度神经网络的标配。但它的信息聚合方式非常粗糙:把所有前面层的输出无差别地等权相加

这带来了两个严重问题:

问题表现后果
信息稀释浅层特征在向深层传递时,其相对贡献随深度线性衰减第50层想用第2层的信息,但已被中间48层的信息层层冲淡
隐状态爆炸深层模块需要输出更大模长的激活值来维持信号强度数值不稳定,梯度分布不均,训练收敛困难

这就是论文中反复提到的 PreNorm 稀释问题(PreNorm dilution problem)。

2. 时间-深度对偶性:一个天才的类比

Kimi 团队发现了一个深刻的数学结构:网络的深度维度和序列的时间维度本质上是同构的

“将注意力旋转 90°”——论文作者之一 Yulun Du

这句话的意思是:

  • 横轴(时间/序列):Transformer 用注意力机制让每个 token 去关注序列中任意位置的 token,解决了 RNN 的遗忘问题
  • 纵轴(深度):为什么不让每一层去关注前面任意层的输出,解决残差连接的稀释问题?

既然注意力机制在横向上解决了 RNN 的问题,旋转 90° 放到纵向上,同样有效。

3. Attention Residuals 的数学形式

在这里插入图片描述

4. Block AttnRes:工程落地的关键

Full AttnRes 理论上完美,但在大规模训练中面临内存和通信开销爆炸的问题——每一层都需要访问所有前面层的输出。

Kimi 团队的解决方案是 Block AttnRes

策略做法效果
分块压缩将 L 层网络分成 N 个 Block(每个约 6 层),Block 内部沿用传统残差,Block 之间使用注意力内存开销从 O(L) 降至 O(N)
跨阶段缓存在流水线并行中只传输新增的块数据训练额外开销 < 4%
两阶段计算将块内所有层的查询打包成一次矩阵运算推理延迟增加 < 2%

实验发现,N ≈ 8 个块就能获得 Full AttnRes 绝大部分性能增益

二、举例说明:用数学学习路径来类比

设想一个人的数学学习路径:

阶段册数内容
小学数学6 册加减乘除、分数小数
中学数学3 册代数、几何基础
高中数学3 册函数、解析几何
高等数学2 册微积分、线性代数

学习完成后,需要用全部 14 册的知识解决现实问题。

机制类比做法效果
Standard Residual把 14 册书的知识点等量混合后使用高等数学的重要知识被稀释,解决问题效果差
Full AttnRes按权重分配:高等数学最多,高中数学次之,小学最少解决问题时更多使用高等数学,效果更好
Block AttnRes先把每个阶段整理成摘要,再按权重使用各阶段的摘要既高效又保留关键信息

这个类比很直观地解释了:为什么让模型学会“选择性关注”比“照单全收”更有效。

三、应用场景与实测效果

1. 训练效率:1.25 倍计算杠杆

在 Kimi Linear 48B 模型上(总参数 48B,激活参数 3B),实验结果表明:

指标效果
计算效率同等验证损失下,Block AttnRes 相当于传统模型用 1.25 倍算力才能达到的效果
训练开销端到端训练耗时增加 < 4%
推理延迟增加 < 2%

2. 下游任务:推理密集型任务提升显著

在 15 项主流评测基准中,Block AttnRes 均达到或超过基线模型:

任务类型评测基准提升幅度
科学推理GPQA-Diamond+7.5%
数学推理Minerva Math+3.6%
代码生成HumanEval+3.1%
知识理解MMLU+1.1%

值得注意的是,推理密集型任务(GPQA、数学、代码)提升最显著——这正是需要模型“深挖”能力的地方,与 Attention Residuals 的设计目标高度吻合。

3. 训练稳定性:梯度分布更均匀

从训练过程观察:

现象传统残差Attention Residuals
输出量级随深度单调增长(逐层放大)在每个 Block 边界重置,呈周期性模式
梯度分布早期层梯度过大,分布极不均匀显著更均匀,更多层真正参与学习

4. 行业反响与未来方向

这项技术发布后,获得了多位 AI 领域顶尖人物的高度评价:

  • 马斯克:“Impressive work from Kimi”(令人印象深刻的工作)
  • Jerry Tworek(OpenAI o1 主要发明者):“深度学习 2.0 时代即将到来”
  • Andrej Karpathy(OpenAI 创始成员):“我们对‘Attention is All You Need’的理解还是片面了”

从更宏观的视角看,Kimi 创始人杨植麟在 GTC 2026 演讲中指出:“行业目前普遍使用的很多技术标准,本质上是八九年前的产物,正逐渐成为 Scaling 的瓶颈。” Attention Residuals 正是对残差连接这一“祖传地基”的重构,标志着大模型竞争正从数据与算力驱动,转向架构创新驱动的新阶段。

总结:Attention Residuals 核心价值一览

维度核心突破
原理用可学习的 Softmax 注意力权重,取代传统残差的固定等权加法
创新发现“时间-深度对偶性”,将注意力机制“旋转 90°”应用到深度轴上
工程Block AttnRes 分块策略,将开销控制在训练 <4%、推理 <2%
效果1.25 倍计算效率提升,推理密集型任务(GPQA)提升 7.5%
意义撬动了深度学习沿用十年的“祖传地基”,开启架构创新新阶段

Read more

Vivado完整license文件获取与配置指南

本文还有配套的精品资源,点击获取 简介:Vivado是由Xilinx开发的FPGA和SoC设计综合工具,支持Verilog、VHDL等硬件描述语言,提供高级综合、仿真、IP集成等功能。本资源包“Vivado_的license文件.zip”包含用于解锁Vivado完整功能的许可证文件。介绍了许可证服务器配置、.lic文件管理、浮动与固定许可证区别、激活流程、更新与诊断等核心内容。适用于FPGA开发者、嵌入式系统工程师及学习者,帮助其合法配置Vivado环境,提升开发效率和项目执行能力。 1. Vivado工具与FPGA开发环境概述 Xilinx Vivado设计套件是面向FPGA和SoC开发的集成化软件平台,广泛应用于通信、工业控制、人工智能、嵌入式视觉等多个高科技领域。其核心功能包括项目创建、综合、实现、仿真、调试及系统级集成,支持从设计输入到硬件验证的全流程开发。 Vivado不仅提供了图形化界面(GUI)便于初学者快速上手,还支持Tcl脚本自动化操作,满足高级用户的大规模工程管理需求。其模块化架构设计使得开发者可以灵活选择所需功能组件,如HLS(高层次综合)、IP In

GTC2026前瞻(二)Agentic AI 与开源模型篇+(三)Physical AI 与机器人篇

GTC2026前瞻(二)Agentic AI 与开源模型篇+(三)Physical AI 与机器人篇

(二)Agentic AI 与开源模型篇 Agentic AI与开源模型:英伟达想定义的,不只是“更聪明的模型”,而是“能持续工作的数字劳动力” 如果说过去两年的大模型竞赛,核心问题还是“谁能生成更像人的答案”,那么到了 GTC 2026,问题已经明显变了。英伟达把 Agentic AI 直接列为大会四大核心主题之一,官方对这一主题的定义也很明确:重点不再是单轮问答,而是让 AI agent 能够推理、规划、检索并执行动作,最终把企业数据转化为可投入生产的“数字劳动力”。这说明,Agentic AI 在英伟达的语境里,已经不是一个前沿概念,而是下一阶段 AI 商业化的主战场。(NVIDIA) 一、GTC 2026真正的变化,是 AI 开始从“会回答”走向“会做事”

低代码AI架构:让灵活智能架构落地更简单(附实战demo)

低代码AI架构:让灵活智能架构落地更简单(附实战demo) 一、引入:当AI落地遇到“开发高墙”,低代码如何成为破局钥匙? 1. 一个真实的痛点故事 某零售企业的工程师小李最近很头疼。公司想做一个实时客户画像系统,需要从APP行为数据中提取用户偏好,预测购买意图,支撑精准推荐。但传统开发流程像一座“高墙”: * 数据准备:需要写Python脚本清洗埋点数据,处理缺失值、异常值,花了1周; * 模型开发:选了LightGBM做分类,调参用了GridSearch,跑了3天,准确率才到75%; * 部署上线:需要用Flask写API, Docker打包,K8s部署,还要对接业务系统,又花了2周; * 迭代优化:业务方要求增加“地域偏好”维度,得重新改数据 pipeline、调模型,又是1周。 最终,整个项目花了近1个月,而业务方想要的“快速试错”变成了“慢工出细活”。小李感叹:“AI不是难在算法,而是难在从实验室到生产环境的落地流程。

汽车雷达在多径存在下的幽灵目标检测——论文阅读

汽车雷达在多径存在下的幽灵目标检测——论文阅读

汽车雷达在多径存在下的幽灵目标检测 D. Sharif, S. Murtala and G. S. Choi, “A Survey of Automotive Radar Misalignment Detection Techniques,” in IEEE Access, vol. 13, pp. 123314-123324, 2025, doi: 10.1109/ACCESS.2025.3584454. 摘要 共置多输入多输出(MIMO)技术已被广泛应用于汽车雷达系统,因为它能够以相对较少的发射和接收天线数量提供精确的角度估计。由于视距目标的发射方向(DOD)和到达方向(DOA)重合,MIMO信号处理允许形成更大的虚拟阵列用于角度查找。然而,多径反射是一个主要的限制因素,雷达信号可能从障碍物反弹,创建DOD不等于DOA的回波。因此,在具有多个散射体的复杂场景中,目标的直接路径可能被其他物体的间接路径破坏,导致不准确的角度估计或产生幽灵目标。