PythonAI算法

DeepSeek-V3 FP8 量化原理与工程实现

综述由AI生成DeepSeek-V3 采用 FP8 量化技术显著降低了训练和推理成本。文章深入解析了 Group/Block-wise 量化原理，解释了如何通过分块量化解决特征异常值问题并平衡精度与效率。详细介绍了 DeepSeek-V3 的量化配置，包括权重的静态 Block-wise 量化和激活的动态 Per-token-group 量化。重点讨论了 FP8-GEMM 的工程实现，涵盖 GPU 计算流程中的下溢处理、Python Native 实现、Triton 算子配置及 CUTLASS 库中的分块与分组缩放策略。最后总结了硬件支持（如 Hopper 架构 TMA）与算子优化的关键点。

栈溢出发布于 2025/2/7更新于 2026/6/218 浏览

DeepSeek-V3 FP8 量化原理与工程实现

DeepSeek-V3 横空出世，训练和推理成本极低，一个重要的原因就是采用了 FP8 进行训练和推理。本文结合实践分析其中的原理、配置及工程落地细节。

Group/Block wise 量化

分块量化（Block-wise Quantization），也称为分组量化（Per-group Quantization），是一种细粒度量化方法。

特征异常值挑战

特征异常值是指在特征分布中远离大部分数据的极端值。这些异常值对量化尤其具有挑战性，因为如果使用全局的量化参数（例如最大值），则这些异常值可能会导致大部分数据的量化精度下降。

细粒度量化核心思想

细粒度量化的核心思想是使用更精细的量化粒度，即对输入和权重的不同部分使用不同的缩放因子。这样可以更好地适应数据的局部特征，减少异常值的影响。

DeepSeek-V3 FP8 量化示意图

分块量化机制

分块量化将张量分割成更小的块或组，并为每个块分配独立的量化参数（缩放因子 s 和零点 z）。

如上图所示，矩阵被分割成多个小块，每个小块使用不同的颜色进行标注，对应不同的量化参数。

优点：

提供了对量化过程更精细的控制，通常会在模型精度和计算效率方面带来更好的性能。
通过调整块的大小，可以在精度和效率之间进行灵活的权衡。
相比逐张量量化，分块量化能够更好地适应张量内部数据分布的变化，减少量化误差。
相比逐通道量化，分块量化可以减少需要存储的量化参数数量，从而降低存储开销。

缺点：

需要合理划分组别，增加了量化策略的设计复杂性。
分块量化一般对硬件不友好，计算效率可能低于全局量化，需要特定的算子支持。

总之 Block-wise 量化是对矩阵分组，每一组有独立的量化参数，可以更好的控制精度损失。

DeepSeek-V3 量化配置

首先看 DeepSeek-V3 FP8 版本的模型配置：

{
  "quantization_config": {
    "activation_scheme": "dynamic",
    "fmt": "e4m3",
    "quant_method": "fp8",
    "weight_block_size": [
      128

// inputs
//     A           [M, K]                     fp8         (按行分组量化，每组对应一个 As 元素)
//     B           [N, K]                     fp8         (按块量化，块大小为 [block_k, block_n]，每个块对应一个 Bs 元素)
//     As          [M, K/block_k]               fp32        (A 的每行（或每组）的量化比例因子)
//     Bs          [K/block_k, N/block_n]         fp32        (B 的每个块的量化比例因子)
// outputs
//     mat         [M, N]                     fp32

def native_w8a8_block_fp8_matmul(A, B, As, Bs, block_size, output_dtype=torch.float16):
    """This function performs matrix multiplication with block-wise quantization using native torch.
    It takes two input tensors `A` and `B` with scales `As` and `Bs`.
    The output is returned in the specified `output_dtype`.
    """
    M, K = A.shape
    N, K_B = B.shape
    block_k, block_n = block_size
    
    n_tiles = (N + block_n - 1) // block_n
    k_tiles = (K + block_k - 1) // block_k
    assert n_tiles == Bs.shape[0]
    assert k_tiles == Bs.shape[1]

    C_shape = (M, N)
    C = torch.zeros(C_shape, dtype=torch.float32, device=A.device)

    A_tiles = [A[:, i * block_k : min((i + 1) * block_k, K)] for i in range(k_tiles)]
    B_tiles = [
        [
            B[
                j * block_n : min((j + 1) * block_n, N),
                i * block_k : min((i + 1) * block_k, K),
            ]
            for i in range(k_tiles)
        ]
        for j in range(n_tiles)
    ]
    C_tiles = [C[:, j * block_n : min((j + 1) * block_n, N)] for j in range(n_tiles)]
    As_tiles = [As[:, i : i + 1] for i in range(k_tiles)]

    for i in range(k_tiles):
        for j in range(n_tiles):
            a = A_tiles[i]     # [M, 128]
            b = B_tiles[j][i]  # [128, 128]
            c = C_tiles[j]     # [M, 128]
            s = As_tiles[i] * Bs[j][i]  #[M, 1]
            c[:, :] += torch.matmul(a, b.t()) * s

    C = C.reshape(C_shape).to(output_dtype)
    return C

def w8a8_block_fp8_matmul(
    A: torch.Tensor,
    B: torch.Tensor,
    As: torch.Tensor,
    Bs: torch.Tensor,
    block_size: List[int],
    output_dtype: torch.dtype = torch.float16,
) -> torch.Tensor:
    """This function performs matrix multiplication with block-wise quantization.
    It takes two input tensors `A` and `B` with scales `As` and `Bs`.
    The output is returned in the specified `output_dtype`.
    Args:
        A: The input tensor, e.g., activation.
        B: The input tensor, e.g., weight.
        As: The per-token-group quantization scale for `A`.
        Bs: The per-block quantization scale for `B`.
        block_size: The block size for per-block quantization. It should be 2-dim, e.g., [128, 128].
        output_dtype: The dtype of the returned tensor.
    Returns:
        torch.Tensor: The result of matmul.
    """
    pass

# 尝试加载之前通过 tuning 方式获得的最佳配置信息。
configs = get_w8a8_block_fp8_configs(N, K, block_size[0], block_size[1])

if configs:
    # If an optimal configuration map has been found, look up the
    # optimal config
    config = configs[min(configs.keys(), key=lambda x: abs(x - M))]
else:
    # Default config
    # Block-wise quant: BLOCK_SIZE_K must be divisable by block_size[1]
    config = {
        "BLOCK_SIZE_M": 64,
        "BLOCK_SIZE_N": block_size[0],
        "BLOCK_SIZE_K": block_size[1],
        "GROUP_SIZE_M": 32,
        "num_warps": 4,
        "num_stages": 3,
    }

@triton.jit
def _w8a8_block_fp8_matmul(
    # Pointers to inputs and output
    # ... parameters ...
):
    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
        a = tl.load(a_ptrs, mask=offs_k[None, :] < K - k * BLOCK_SIZE_K, other=0.0)
        b = tl.load(b_ptrs, mask=offs_k[:, None] < K - k * BLOCK_SIZE_K, other=0.0)

        k_start = k * BLOCK_SIZE_K
        offs_ks = k_start // group_k
        a_s = tl.load(As_ptrs + offs_ks * stride_As_k)
        b_s = tl.load(Bs_ptrs + offs_ks * stride_Bs_k)

        accumulator += tl.dot(a, b) * a_s[:, None] * b_s[None, :]
        a_ptrs += BLOCK_SIZE_K * stride_ak
        b_ptrs += BLOCK_SIZE_K * stride_bk

DeepSeek-V3 FP8 量化原理与工程实现

DeepSeek-V3 FP8 量化原理与工程实现

Group/Block wise 量化

特征异常值挑战

细粒度量化核心思想

分块量化机制

DeepSeek-V3 量化配置

DeepSeek-V3 FP8 量化原理与工程实现

DeepSeek-V3 FP8 量化原理与工程实现

Group/Block wise 量化

特征异常值挑战

细粒度量化核心思想

分块量化机制

DeepSeek-V3 量化配置

更多推荐文章

相关免费在线工具

量化精度与粒度

权重量化（block-wise）

激活量化（per-token-group）

FP8-GEMM 工程实现

GPU 计算流程

Python Native 实现

Triton 实现

1. 函数接口

2. Triton 算子配置

3. Triton 算子实现

CUTLASS 实现

分块缩放

分组缩放

总结

更多推荐文章

相关免费在线工具

DeepSeek-V3 FP8 量化原理与工程实现

DeepSeek-V3 FP8 量化原理与工程实现

Group/Block wise 量化

特征异常值挑战

细粒度量化核心思想

分块量化机制

DeepSeek-V3 量化配置

DeepSeek-V3 FP8 量化原理与工程实现

DeepSeek-V3 FP8 量化原理与工程实现

Group/Block wise 量化

特征异常值挑战

细粒度量化核心思想

分块量化机制

DeepSeek-V3 量化配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

量化精度与粒度

权重量化（block-wise）

激活量化（per-token-group）

FP8-GEMM 工程实现

GPU 计算流程

Python Native 实现

Triton 实现

1. 函数接口

2. Triton 算子配置

3. Triton 算子实现

CUTLASS 实现

分块缩放

分组缩放

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具