LLM 性能优化核心概念与工程实践

一、MHA 结构优化（效果有损）

KV Cache 的大小取决于模型大小（dim 和 layers）以及序列长度。为了尽可能支持更大的模型或更长的序列，需要对 KV 进行压缩。以下列举一些对 MHA 参数量进行压缩的方法，从而实现对 KV Cache 的压缩。

MQA（Multi-Query Attention）

多组 Q（Query），共享 K（Key）、V（Value），直接将 KV Cache 减少到了原来的 1/h。为了保持模型总参数量不变，通常会相应地增大 FFN/GLU 的规模，这也能弥补一部分效果损失。使用 MQA 的模型包括 PaLM、Gemini 等。

示意图见下图右侧： LLM 性能优化示意图

GQA（Grouped-Query Attention）

是 MQA 和 MHA 的折中方案。它将 Query 分组，每组共享一组 Key 和 Value。这种设计在显存占用和推理速度之间取得了平衡。使用 GQA 的模型包括 LLaMA 2、Code LLaMA 等。

示意图见上图： GQA 结构示意图

MLA（Multi-head Latent Attention）

DeepSeek-V2 使用了低秩投影压缩 KV Cache 的大小，即 MLA。它通过压缩 KV Cache 的维度来减少内存占用，详见缓存与效果的极限拉扯：从 MHA、MQA、GQA 到 MLA。

示意图见下图右侧： MLA 结构示意图

SWA (Sliding Window Attention)

包括自己在内，每个位置只能往前看 N 个输入。实际上是一种 sparse attention。因此，KV Cache 和 Attention 的计算量增大到一定程度后就不再增长（具体实现依靠 Rolling Buffer Cache，实现一个滚动缓存区，将内存控制在一个稳定的数值）。因为有多层，其实能间接融合 window_size 个输入以前的信息，而不仅仅是 window_size（类似于多层的 CNN 网络，高层的卷积模板其实具有较大的感受野）。Mistral 7B 就是使用 SWA：Uses Sliding Window Attention (SWA) to handle longer sequences at smaller cost（在较少的显存代价上取得更长的序列长度）。Mistral 7B 模型具有 4096 的 window_size： SWA 窗口示意图

线性 Attention

处理长序列时，具有线性的时间复杂度。方案是将 softmax 变成 sim(q,k)，用核函数，q 和 k 变成 phi(q) 和 phi(k)，phi(x)=elu(x)+1，然后 k 和 v 先算。备注：线性 attention、包括下面的 RWKV，并不是通用的做法，只是作为性能优化的一种方法，在这里引申一下。

RWKV：线性 attention 的一个变种。将历史信息压缩到了一个向量中，类似 RNN。 RWKV 结构图

LLM 性能优化核心概念与工程实践

一、MHA 结构优化（效果有损）

MQA（Multi-Query Attention）

GQA（Grouped-Query Attention）

MLA（Multi-head Latent Attention）

SWA (Sliding Window Attention)

线性 Attention

更多推荐文章

相关免费在线工具

二、MHA 工程优化（效果无损）

KV Cache

Online Softmax

Flash Attention

Page Attention

Ring Attention

Striped Attention

三、FFN 部分的优化

MoE（Mixture of Experts）

四、微调

五、训练相关

混合精度

直接使用 float16 的问题：

混合精度训练：

具体过程：

细节说明：

并行、调度、训练框架

Megatron LM

ZeRO

offload

六、总结

更多推荐文章

相关免费在线工具

LLM 性能优化核心概念与工程实践

一、MHA 结构优化（效果有损）

MQA（Multi-Query Attention）

GQA（Grouped-Query Attention）

MLA（Multi-head Latent Attention）

SWA (Sliding Window Attention)

线性 Attention

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、MHA 工程优化（效果无损）

KV Cache

Online Softmax

Flash Attention

Page Attention

Ring Attention

Striped Attention

三、FFN 部分的优化

MoE（Mixture of Experts）

四、微调

五、训练相关

混合精度

直接使用 float16 的问题：

混合精度训练：

具体过程：

细节说明：

并行、调度、训练框架

Megatron LM

ZeRO

offload

六、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具