LLM 中 Attention 机制的实现原理与优化策略 | 极客日志

PythonAI算法

LLM 中 Attention 机制的实现原理与优化策略

综述由AI生成探讨了大语言模型中 Attention 机制的实现原理及优化方案。首先分析了 Multi-Head Attention 的计算复杂度及其随序列长度增长的特性。接着介绍了 Multi-Query Attention 和 Group Query Attention 如何通过共享 Key 和 Value 矩阵来降低显存占用并提升推理速度，给出了具体的代码实现与内存计算公式。随后阐述了 Sliding Window Attention 如何通过限制注意力范围来优化长序列处理。最后深入讲解了 FlashAttention 利用 GPU SRAM/HBM 层级结构加速计算的方法，以及 PagedAttention 解决显存碎片化问题的优势。这些优化技术共同推动了大模型的高效训练与部署。

不知所云发布于 2025/2/7更新于 2026/6/324 浏览

Multi-Head Attention

Multi-Head Attention (MHA) 是 Transformer 架构的核心组件。Attention 的计算复杂度与文本长度的二次方成正比，相关的计算过程如下。

MHA 的整体复杂度与上下文长度 n 的二次方成正比，与模型的规模 d（embedding size）的二次方成正比。增大 context 的长度，会带来计算复杂度的二次方增大。

Attention 实现机制优化

Multi-Query Attention (MQA)

对于 Multi-Head Attention，每个 head 对应的 k 矩阵和 v 矩阵不同，因此对于每个 token 都有 h（head 数目）个 k 矩阵和 v 矩阵。

在模型推理的过程中，为了防止重新计算，会缓存之前 token 对应的 Keys 和 Values。因此 GPU 显存占用会随着预测的 token 数目而增加。

Multi-Query Attention 通过在不同 head 中共享 K 和 V，即不同的 head 具有相同的 key 和 value，降低了存储的 k 矩阵和 v 矩阵的数目。对于每个 token 存储的 matrix 数目由 2h 个降低为两个 matrix。同时也降低了计算复杂度。

Multi-Query Attention 极大地提高了推理速度。

Group Query Attention (GQA)

Group Query Attention 是对所有 head 的 Query 分组为不同的 group，对一个 group 内的 query，共享 key 和 value。GQA 的效果与 MHA 的效果相当，训练速度与 MQA 相当，提高了训练速度的同时，效果相比 MQA 有提高。

GQA 的实现

# init 时 k 和 v 用 self.num_key_value_heads * self.head_dim 初始化，当 self.num_key_value_heads 小于 self.num_heads 时，参数量变少
self.q_proj = nn.Linear(self.hidden_size, self.num_heads * self.head_dim, bias=False)
self.k_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=False)
self.v_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=False)

# forward 时，通过 repeat_kv 方法，将 hidden states 从 (batch, num_key_value_heads, seqlen, head_dim) 变成 (batch, num_attention_heads, seqlen, head_dim)，相当于是复制了 self.num_key_value_groups 份
self.num_key_value_groups = self.num_heads // self.num_key_value_heads

key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(, )
value_states = value_states.view(bsz, q_len, .num_key_value_heads, .head_dim).transpose(, )

key_states = repeat_kv(key_states, .num_key_value_groups)
value_states = repeat_kv(value_states, .num_key_value_groups)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

batch * max_seq_len * n_heads * head_dim * sizeof(half) * 2

batch * max_seq_len * n_kv_heads * head_dim * sizeof(half) * 2

LLM 中 Attention 机制的实现原理与优化策略

Multi-Head Attention

Attention 实现机制优化

Multi-Query Attention (MQA)

Group Query Attention (GQA)

GQA 的实现

更多推荐文章

相关免费在线工具

内存开销计算

SWA (Sliding Window Attention)

Attention 底层实现优化

FlashAttention

PagedAttention

PagedAttention 的优势

总结

更多推荐文章

相关免费在线工具

LLM 中 Attention 机制的实现原理与优化策略

Multi-Head Attention

Attention 实现机制优化

Multi-Query Attention (MQA)

Group Query Attention (GQA)

GQA 的实现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

内存开销计算

SWA (Sliding Window Attention)

Attention 底层实现优化

FlashAttention

PagedAttention

PagedAttention 的优势

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具