Stable Diffusion 3.5 FP8 镜像发布：显存降低 40%，推理提速显著

生成式 AI 浪潮下，文本生成图像技术正在重塑创意产业。从独立艺术家到设计公司，Stable Diffusion 等开源模型已成为内容创作的主力。但随着模型能力增强，GPU 显存和算力需求水涨船高——一个高质量的 1024×1024 图像生成任务往往需要 16GB 以上显存，这让不少开发者望而却步。

这一局面正在被打破。Stability AI 最新推出的 Stable Diffusion 3.5 FP8 镜像，通过引入前沿的 FP8 量化技术，在几乎不牺牲图像质量的前提下，将推理显存占用降低约 40%，推理速度提升近一半。这意味着原本只能运行在 A100/H100 等高端卡上的旗舰级文生图能力，如今在 RTX 4090 甚至 L40S 消费级或主流数据中心 GPU 上也能流畅运行。

这不仅是参数压缩的一次胜利，更是大模型走向规模化落地的关键一步。

为什么选择 FP8？

传统上，深度学习模型普遍采用 FP16（半精度浮点）进行推理，兼顾了数值稳定性和计算效率。但随着 Transformer 架构的参数规模不断膨胀，存储和计算成本成为瓶颈。INT8 虽然进一步压缩了体积，但在动态范围和精度保留方面表现不佳，容易导致生成图像出现 artifacts 或语义偏移。

FP8 的出现提供了一个更优解。它是一种 8 位浮点格式，支持两种主要编码模式：

E4M3：4 位指数 + 3 位尾数，动态范围更大，适合表示权重；
E5M2：5 位指数 + 2 位尾数，适用于梯度或极端值场景。

相比 INT8 的线性量化，FP8 采用非均匀分布，能够在极小比特宽度下维持足够的动态范围。实测表明，在大多数神经网络激活值集中在 [-10, 10] 区间的前提下，E4M3 的最大可表示数值（约 448）已完全满足需求，且远优于 INT8 的表现。

更重要的是，现代 GPU 已经开始原生支持 FP8 运算。NVIDIA H100 的 Tensor Core 可实现每周期千兆级别的 FP8 算力，AMD MI300、Intel Gaudi3 也纷纷跟进。硬件与软件的协同演进，让 FP8 不再是理论构想，而是真正可用的工程实践。

如何实现无损压缩？

SD3.5-FP8 并非简单地将所有权重强制转为 FP8。那样做只会换来模糊的图像和错乱的提示理解。真正的挑战在于：如何在关键结构中保留精度，而在非敏感层大胆降精？

答案是混合精度 + 训练后量化（PTQ） 的组合策略。

整个流程始于对原始 FP16 模型的校准阶段。使用少量代表性提示词（如来自 COCO Captions 的数据集），收集各层输出张量的统计信息，计算其最大/最小值，并据此确定最优的缩放因子（scale factor）。对于 U-Net 中的卷积块和注意力投影层，通常采用 KL 散度最小化方法来选择量化区间，确保感知损失最小。

随后进入分层处理：

U-Net 主干：大部分线性层和卷积层成功转换为 FP8（E4M3），尤其是 QKV 投影和前馈网络（FFN），这些模块对低精度容忍度较高；
注意力 Softmax 与 LayerNorm 输入：仍保留 FP16，避免因数值不稳定引发分布偏移；
VAE 解码器：部分关键层保持 FP16 以保障细节还原，但接收的是来自 FP8 U-Net 的潜在特征图，依然受益于前序阶段的显存压缩；
文本编码器（CLIP）：整体维持 FP16 精度，因其对语义解析极为敏感。

这种'关键层保精、非敏感层降精'的设计理念，使得模型在仅增加少量工程复杂度的情况下，实现了资源效率的显著跃升。

实际收益：不只是数字游戏

我们来看一组真实对比数据（基于官方基准测试与社区复现）：

指标	FP16 原版 SD3.5	FP8 量化版 SD3.5	提升幅度
显存占用（1024×1024）	~15 GB	~9 GB	↓40%
推理延迟（A100）	~3.2s / image	~1.8s / image	↑44%
支持最大分辨率	1024×1024

Stable Diffusion 3.5 FP8 镜像发布：显存降低 40%，推理提速显著