谷歌 Infini-attention 机制：1B 模型支持百万级上下文

谷歌提出 Infini-attention 机制，实现无限长度上下文

谷歌近期对 Transformer 架构进行了重大改进，提出了名为 Infini-attention（无限注意力）的新机制。该机制使得大模型在有限的计算资源下能够处理极长甚至无限的输入序列。

核心突破与性能表现

根据最新研究，基于 Infini-attention 的模型展现出以下关键能力：

超长上下文支持：1B 参数量的大模型上下文长度可扩展至 1M token（约 100 万 token），相当于阅读 10 部小说的内容。
高精度检索：模型能够完成 Passkey 检索任务，即在海量文本中准确定位特定信息。
SOTA 表现：8B 参数量的模型在 500K 上下文长度的书籍摘要任务中，取得了最新的 SOTA（State of the Art）成绩。
内存压缩比：在内存大小不变的情况下，实现了约 114 倍的信息存储压缩比。这意味着原本能存放 100 本书的'图书馆'，现在可以存储 11400 本书。

技术原理详解

传统 Transformer 的局限

标准 Transformer 架构中的自注意力机制（Self-Attention）具有二次方复杂度 $O(N^2)$。随着输入序列长度 $N$ 的增加，计算量和显存占用呈指数级增长。这导致在处理长文本时，模型往往需要截断输入或消耗巨大的硬件资源，限制了其在长文档理解、长视频分析等场景的应用。

Infini-attention 机制设计

Infini-attention 的核心思想是将 压缩记忆（Compressive Memory） 整合到 线性注意力机制（Linear Attention） 中。

压缩记忆：允许模型在处理新输入时保留和重用之前的上下文信息。它通过固定数量的参数来存储和回忆信息，而不是随着输入序列长度的增加而增加参数量。这显著减少了内存占用和计算成本。
线性注意力：不同于传统 Transformer 的二次方复杂度，线性注意力通过更小的计算开销来检索和更新长期记忆。在 Infini-attention 中，旧的 KV 状态（Key-Value states）被存储在压缩记忆中，而不是像传统方法那样被丢弃。
匹配检索：通过将当前的查询（Query）与压缩记忆中存储的键值进行匹配，模型就可以高效地检索到相关的值，从而实现长程依赖的捕捉。

位置嵌入的作用

PE（Positional Embedding）用于给模型提供序列中元素的位置信息，确保模型能够区分不同位置的 token，这对于理解长文本的语义结构至关重要。

与其他模型的对比

与 Transformer-XL 对比

Transformer-XL 仅缓存最后一段 KV 状态。当处理新的序列段时，它会丢弃旧的键值对，因此只能保留最近一段的上下文信息。相比之下，Infini-attention 通过压缩记忆保留了更久远的历史信息，有效解决了长序列遗忘问题。

与 Memorizing Transformer 对比

在训练后，Memorizing Transformer 存储参数所需的内存是 Infini-attention 的 114 倍。Infini-attention 能在内存占用极低的情况下，有效处理非常长的序列，展现了极高的效率优势。

实验结果与分析

训练设置

研究团队将训练长度增加到 100K，并在 Arxiv-math 数据集上进行训练。消融实验比较了'线性'和'线性 + 增量'记忆两种模式，结果显示性能相当，验证了方法的鲁棒性。

长下文语言建模

在长下文语言建模任务中，Infini-attention 在保持低内存占用的同时，困惑度（Perplexity）更低，表明其生成质量更高。

Passkey 检索任务

实验结果显示，即使在输入只有 5K 进行微调的情况下，Infini-Transformer 可成功搞定 1M 长度（100 万）的 passkey 检索任务。这证明了模型具备极强的长距离信息定位能力。

谷歌 Infini-attention 机制：1B 模型支持百万级上下文

谷歌提出 Infini-attention 机制，实现无限长度上下文

核心突破与性能表现

技术原理详解

传统 Transformer 的局限

Infini-attention 机制设计

位置嵌入的作用

与其他模型的对比

与 Transformer-XL 对比

与 Memorizing Transformer 对比

实验结果与分析

训练设置

长下文语言建模

Passkey 检索任务

更多推荐文章

相关免费在线工具

书籍摘要任务

注意力头的分化

行业影响与展望

更多推荐文章

相关免费在线工具

谷歌 Infini-attention 机制：1B 模型支持百万级上下文

谷歌提出 Infini-attention 机制，实现无限长度上下文

核心突破与性能表现

技术原理详解

传统 Transformer 的局限

Infini-attention 机制设计

位置嵌入的作用

与其他模型的对比

与 Transformer-XL 对比

与 Memorizing Transformer 对比

实验结果与分析

训练设置

长下文语言建模

Passkey 检索任务

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

书籍摘要任务

注意力头的分化

行业影响与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具