谷歌提出 Infini-attention 机制,实现无限长度上下文
谷歌近期对 Transformer 架构进行了重大改进,提出了名为 Infini-attention(无限注意力)的新机制。该机制使得大模型在有限的计算资源下能够处理极长甚至无限的输入序列。
核心突破与性能表现
根据最新研究,基于 Infini-attention 的模型展现出以下关键能力:
- 超长上下文支持:1B 参数量的大模型上下文长度可扩展至 1M token(约 100 万 token),相当于阅读 10 部小说的内容。
- 高精度检索:模型能够完成 Passkey 检索任务,即在海量文本中准确定位特定信息。
- SOTA 表现:8B 参数量的模型在 500K 上下文长度的书籍摘要任务中,取得了最新的 SOTA(State of the Art)成绩。
- 内存压缩比:在内存大小不变的情况下,实现了约 114 倍的信息存储压缩比。这意味着原本能存放 100 本书的'图书馆',现在可以存储 11400 本书。
技术原理详解
传统 Transformer 的局限
标准 Transformer 架构中的自注意力机制(Self-Attention)具有二次方复杂度 $O(N^2)$。随着输入序列长度 $N$ 的增加,计算量和显存占用呈指数级增长。这导致在处理长文本时,模型往往需要截断输入或消耗巨大的硬件资源,限制了其在长文档理解、长视频分析等场景的应用。
Infini-attention 机制设计
Infini-attention 的核心思想是将 压缩记忆(Compressive Memory) 整合到 线性注意力机制(Linear Attention) 中。
- 压缩记忆:允许模型在处理新输入时保留和重用之前的上下文信息。它通过固定数量的参数来存储和回忆信息,而不是随着输入序列长度的增加而增加参数量。这显著减少了内存占用和计算成本。
- 线性注意力:不同于传统 Transformer 的二次方复杂度,线性注意力通过更小的计算开销来检索和更新长期记忆。在 Infini-attention 中,旧的 KV 状态(Key-Value states)被存储在压缩记忆中,而不是像传统方法那样被丢弃。
- 匹配检索:通过将当前的查询(Query)与压缩记忆中存储的键值进行匹配,模型就可以高效地检索到相关的值,从而实现长程依赖的捕捉。
位置嵌入的作用
PE(Positional Embedding)用于给模型提供序列中元素的位置信息,确保模型能够区分不同位置的 token,这对于理解长文本的语义结构至关重要。
与其他模型的对比
与 Transformer-XL 对比
Transformer-XL 仅缓存最后一段 KV 状态。当处理新的序列段时,它会丢弃旧的键值对,因此只能保留最近一段的上下文信息。相比之下,Infini-attention 通过压缩记忆保留了更久远的历史信息,有效解决了长序列遗忘问题。
与 Memorizing Transformer 对比
在训练后,Memorizing Transformer 存储参数所需的内存是 Infini-attention 的 114 倍。Infini-attention 能在内存占用极低的情况下,有效处理非常长的序列,展现了极高的效率优势。
实验结果与分析
训练设置
研究团队将训练长度增加到 100K,并在 Arxiv-math 数据集上进行训练。消融实验比较了'线性'和'线性 + 增量'记忆两种模式,结果显示性能相当,验证了方法的鲁棒性。
长下文语言建模
在长下文语言建模任务中,Infini-attention 在保持低内存占用的同时,困惑度(Perplexity)更低,表明其生成质量更高。
Passkey 检索任务
实验结果显示,即使在输入只有 5K 进行微调的情况下,Infini-Transformer 可成功搞定 1M 长度(100 万)的 passkey 检索任务。这证明了模型具备极强的长距离信息定位能力。
书籍摘要任务
在处理长达 500K 长度的书籍摘要任务时,Infini-Transformer 达到最新 SOTA。这表明该机制不仅适用于检索,也适用于复杂的生成式摘要任务。
注意力头的分化
研究发现,Infini-attention 在训练后,分化出了两种不同类型的注意力头,它们协同处理长期和短期上下文信息:
- 专门化的头(Specialized heads):这些头在训练过程中学习到了特定的功能,它们的门控得分(gating score)接近 0 或 1。这意味着它们要么通过局部注意力机制处理当前的上下文信息,要么从压缩记忆中检索信息,分工明确。
- 混合头(Mixer heads):这些头的门控得分接近 0.5,它们的作用是将当前的上下文信息和长期记忆内容聚合到单一的输出中,起到融合信息的作用。
行业影响与展望
该研究由谷歌团队带来,其中一位作者 Manaal Faruqui 在 Bard 团队,领导研究 Bard 的模型质量、指令遵循等问题。这一成果引发了学术圈的广泛关注。
此外,DeepMind 近期也改进了 Transformer 架构,使其可以动态分配计算资源,以此提高训练效率。有人感慨,基于最近几个新进展,感觉大模型越来越像一个包含高度可替换、商品化组件的软件栈了。
如果未来模型能实现类似无限内存的效果,将对内存数据库、长文本处理等领域产生深远影响。虽然目前很难完全了解哪些技术会真正推行使用,但这一方向无疑为 AI 大模型的发展开辟了新的路径。