FlashAttention-4:在 Blackwell 时代重塑'速度'的定义
1. 引言
在 LLM(大语言模型)的训练和推理中,Attention 机制的 O(N^2) 复杂度一直是悬在所有 AI 工程师头顶的挑战。
从 FlashAttention V1 到 V3,我们见证了算子优化如何从'显存读写瓶颈'一步步走向'计算流水线瓶颈'。而随着 NVIDIA Blackwell 架构(如 B200 芯片)的问世,硬件的算力再次爆发(FP4 精度下高达 20 PFLOPS)。
FlashAttention-4 的核心使命非常明确:驾驭 Blackwell 的 FP4 算力,并解决超低精度下的精度崩塌问题。
如果说 FA1 是为了减少 HBM 访问,FA4 就是为了在百米冲刺中换上喷气式推进器(FP4 量化)。
2. FlashAttention 的进化史:从 V1 到 V4
为了理解 V4 的创新,我们需要快速回顾一下它的前世今生。
| 版本 | 核心瓶颈 | 解决思路 | 标志性技术 | 硬件背景 |
|---|---|---|---|---|
| FA-1 | 显存带宽 (HBM) | 减少对 HBM 的读写次数 | Tiling (分块) + Recomputation (重计算) | A100 |
| FA-2 | 非矩阵运算占比 | 减少非 Tensor Core 操作 | 并行化 Q 维度 + 优化 Softmax 计算逻辑 | A100/H100 |
| FA-3 | Tensor Core 利用率 | 掩盖 Softmax/GEMM 延迟 | Warp-Group MMA + TMA (异步内存拷贝) + FP8 | H100 (Hopper) |
| FA-4 | 计算精度与吞吐平衡 | 榨干 FP4 算力 | 硬件辅助量化 + 极度异步流水线 | B200 (Blackwell) |
3. FlashAttention-4 的核心创新点
FlashAttention-4 并非简单的代码重构,它是针对 NVIDIA Blackwell 架构 的一次深度定制。其创新点主要集中在以下三个方面:
3.1 拥抱 FP4:极低精度的'刀尖起舞'
Blackwell 架构最大的卖点之一是支持 FP4 (4-bit Floating Point)。相比于 FP16,FP4 的理论吞吐量是其 4 倍,显存占用仅为 1/4。
然而,直接在 Attention 这种对精度敏感的算子中使用 4-bit 是自杀行为(Softmax 会因为精度溢出完全失效)。
FA4 的创新:
- 分块量化 (Block-wise Quantization):FA4 不再对整个矩阵做统一量化,而是利用 FA 本身的 Tiling 特性,对每一个小的 Tile (例如 128×128) 进行独立的动态缩放。
- 混合精度累加:虽然输入是 FP4,但中间的累加器(Accumulator)保持在 FP32 或 FP16,确保 Softmax 的指数运算不会因为下溢出而归零。
3.2 极致的 TMA 异步流水线 (Asynchronous Warping)
在 FA3 中,引入了 Hopper 架构的 ,允许数据在 HBM 和 Shared Memory 之间搬运时无需 CUDA Core 参与。

