大模型量化技术原理：FP8

近年来，随着 Transformer、MOE 架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大。因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。模型压缩主要分为如下几类：

剪枝（Pruning）
知识蒸馏（Knowledge Distillation）
量化（Quantization）

本文将讲述 FP8 量化相关的一些工作。

FP8 简介

FP8 是 Nvidia、Arm、Intel 联合推出的 8 位浮点数据格式，用于加速深度学习训练和推理，其发布了论文：FP8 Formats for Deep Learning。目前，在 Nvidia Hopper 和 Ada Lovelace 等 GPU 上提供了支持。

补充：浮点表示法

根据 IEEE 754 标准，在计算机中，使用符号位、指数、尾数三部分表示一个浮点数。

符号位：表示数值的符号，只占用 1bit，0 表示整数，1 表示负数。
指数部分：表示数值的指数（阶码数值）部分，决定了数的范围。
尾数部分：表示数值的底数部分，决定了数的精度和小数部分的具体值。

浮点数的表示公式为：

V = (-1)^s × 2^E × M

比如，FP32 的表示如下所示。

浮点数根据指数位的值分为规格化、非规格化和特殊值（无穷和 NaN）。

对于规格化的值，指数位不全为 1 或 0，其中 E = p - b，b = 2^(e-1) - 1，1 ≤ p ≤ 2^e - 1，M = 1 + f。

也可以表示为：

f = (-1)^s * 2^(p-b) * (1 + d_1/2 + d_2/2^2 + ... + d_m/2^m)

对于非规格化的值，指数位全为 0；因此，p = 1，E = 1 - b，b = 2^(e-1) - 1，M = f。

也可以表示为：

f = (-1)^s * 2^(1-b) * (0 + d_1/2 + d_2/2^2 + ... + d_m/2^m)

对于特殊值，当指数位为全为 1，同时尾数位全为 0 时，表示无穷。当指数位为全为 1，同时尾数位不全为 0 时，表示 NaN。

FP8 表示形式

通常，在硬件中 FP8 有两种不同的表示形式：E4M3、E5M2，每种表示形式在不同的场景中都有用。根据指数位数表示为 FP8-E[X]，有些地方也会对 FP8-E2（E2M5）、FP8-E3(E3M4) 格式同步进行研究，以理解这些格式的行为。

E4M3：由 1 位符号位、4 位指数位、3 位尾数组成。它可以存储高达 +/-448 和 nan 的值。
E5M2：由 1 位符号位、5 位指数位、2 位尾数组成。它可以存储最多 +/-57344、+/- inf 和 nan 的值。

E4M3 能表示的精度更高，而 E5M2 能表示的动态范围更大，增加动态范围的代价是存储值的精度较低。

FP8 精度的 E5M2 数据格式的指数部分，与 FP16 的保持一致。这意味着 FP8 精度的 E5M2 数据格式具备与 FP16 相当的动态范围，因此该数据格式常被用在训练的反向传播阶段。而 E4M3 则适合前向传播。

在 H100 的第四代 Tensor Core 中，支持任意的 FP8 格式矩阵的乘法（E4M3xE4M3, E5M2xE5M2, E4M3xE5M2, E5M2xE4M3），然后会进行累加到 FP32 和 FP16 的数据格式中，同时也支持浮点格式之间的互相转换。

E5M2 完全遵循上面的 IEEE 754 的浮点数格式。

而 E4M3 不完全遵循 IEEE 754 的数据格式，主要不同在于当指数位全为 1 时，一样可以用来表示规格化的值（当小数位不为 1），当且仅当指数与底数全为 1 时，其表示 NaN，同时，E4M3 不能用来表示 Infinites。比如：

二进制的 (0 1111 110) 在 FP8 E4M3 格式中表示 2^(15-7) * (1+1/2 + 1/4) = 448
二进制的 (1 1111 100) 在 FP8 E4M3 格式中表示 -2^(15-7) * (1+1/2) = -384
二进制的 (1 1111 111) 在 FP8 E4M3 格式中表示负无穷大

一些常见的 FP8 二进制格式如下所示。

根据表示的方式，可以把浮点数看成 2 的幂（2^E）之间的 2^M 个样本的精度；比如，在 E5M2 中，2 和 4 之间会有 4 个样本，4 和 8 之间也会有 4 个样本；在 E4M3 中，2 和 4 之间有 8 个样本。通过这一特性，可以容易得出：

大模型量化技术原理：FP8

FP8 简介

补充：浮点表示法

FP8 表示形式

更多推荐文章

相关免费在线工具

INT8 与 FP8 对比

FP8 与 INT8 量化精度

FP8 与 INT8 量化性能

FP8 与 INT8 综合对比

FP8 量化方案

FP8 量化模拟

MoFQ 混合格式量化方法

FP8 推理流程

FP8 在 TensorRT-LLM 中的应用

FP8 在 vLLM 中的应用

在线动态量化

离线动态量化

离线动态量化

离线静态量化

KV Cache FP8（E5M2）量化

KV Cache FP8（E4M3）量化

FP8 在不同推理框架及硬件的性能对比

总结

更多推荐文章

相关免费在线工具

大模型量化技术原理：FP8

FP8 简介

补充：浮点表示法

FP8 表示形式

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

INT8 与 FP8 对比

FP8 与 INT8 量化精度

FP8 与 INT8 量化性能

FP8 与 INT8 综合对比

FP8 量化方案

FP8 量化模拟

MoFQ 混合格式量化方法

FP8 推理流程

FP8 在 TensorRT-LLM 中的应用

FP8 在 vLLM 中的应用

在线动态量化

离线动态量化

离线动态量化

离线静态量化

KV Cache FP8（E5M2）量化

KV Cache FP8（E4M3）量化

FP8 在不同推理框架及硬件的性能对比

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具