大模型量化技术原理：LLM.int8()与GPTQ

综述由AI生成大模型量化旨在降低部署成本并提升推理性能，主要涉及权重、激活及 KV Cache 的压缩。重点解析两种训练后量化方案：LLM.int8() 通过混合精度分解处理激活中的离群值，保留少量特征为 FP16 其余为 INT8，虽精度高但推理速度较慢，无需校准数据；GPTQ 基于 OBQ 优化，采用 int4/fp16 混合量化，利用 Cholesky 分解和延迟批更新提升效率，需校准数据集。两者均已集成至 Transformers 库，便于实际应用。文章对比了两种方案在精度、速度、显存及适用场景上的差异，为工程落地提供选型参考。

机器人发布于 2025/2/6更新于 2026/6/225 浏览

近年来，随着 Transformer、MOE 架构的提出，深度学习模型轻松突破上万亿规模参数，导致模型体积庞大。为了降低部署成本并提升推理性能，我们需要采用大模型压缩技术。模型压缩主要分为剪枝（Pruning）、知识蒸馏（Knowledge Distillation）和量化三类。

本系列将针对大模型的一些常见训练后量化方案（GPTQ、LLM.int8()、SmoothQuant、AWQ 等）进行讲述，本文主要针对 LLM.int8() 与 GPTQ 进行深入解析。

大模型量化的对象

大模型量化的对象主要包括权重、激活、KV Cache、梯度及优化器等。由于梯度量化和优化器量化主要用于训练场景以减少反向传播的计算和通信开销，本系列仅讨论权重、激活、KV Cache 量化方案。

仅权重量化：如 W4A16、AWQ 及 GPTQ 中的 W4A16，W8A16（权重量化为 INT8，激活仍为 BF16 或 FP16）。
权重、激活量化：如 SmoothQuant 中的 W8A8。
KV Cache 量化：INT8/INT4/FP8。LLM 推理时，为了避免冗余计算设计了 KV Cache 缓存机制，本质是空间换时间。对于支持长文本长度的 LLM，KV Cache 显存占用极高，因此 KV Cache 量化非常有必要。

LLM.int8()

背景

作者发现激活中存在一些离群值，其绝对值明显更大；且这些离群值分布在少量的几个特征中，称为离群特征 (Emergent Features)。以激活 X∈R[T×h] 和权重 W∈R[h×h0] 的矩阵相乘为例，特征维度指 h 这个维度。无论是 per-token（针对激活 x：每行对应一个量化系数）还是 per-channel（针对权重 w：每列对应一个量化系数）量化，都会受到这些离群值的很大影响。既然只有少量特征包含离群值，LLM.int8() 的思路是把这些特征拿出来单独计算，只对剩余特征做量化。

技术原理

LLM.int8()（论文：LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale）是一种采用混合精度分解的量化方法。该方案先做了一个矩阵分解，对绝大部分权重和激活用 8bit 量化（vector-wise）。对离群特征的几个维度保留 16bit，对其做高精度的矩阵乘法。

大模型量化技术原理示意图

LLM.int8() 通过三个步骤完成矩阵乘法计算:

从输入的隐含状态中，按列提取异常值 (离群特征，即大于某个阈值的值)。
对离群特征进行 FP16 矩阵运算，对非离群特征进行量化，做 INT8 矩阵运算；
反量化非离群值的矩阵乘结果，并与离群值矩阵乘结果相加，获得最终的 FP16 结果。

实验结果表明该方法效果良好。可以通过使用 LLM.int8() 的量化过程来恢复全部性能。您可以清楚地看到随着模型参数量逐渐变多 8 比特基线（即 vector-wise quantization）的性能大幅下降。而 LLM.int8() 方法使用vector-wise quantization和混合精度分解来恢复全部性能。

大模型量化性能对比图

虽然 LLM.int8() 带来的性能下降微乎其微，但是这种分离计算的方式拖慢了推理速度。对于 BLOOM-176B，相比于 FP16，LLM.int8() 慢了大约 15% 到 23%；对于更小的模型（3B 和 11B），速度差距更为明显，LLM.int8() 慢了三倍以上。

此外，论文中测量了异常值特征对于注意力和预测性能的影响。下图展示了 Transformer 中受模型大小或 C4 困惑度影响的大量异常值特征的层和所有序列维度的百分比。

从图中可知，当通过参数数量进行测量时，Transformer 所有层上的大幅异常值特征突然出现在 6B 和 6.7B 参数之间。受影响层的百分比从 65% 增加到 100%，受影响的序列维度数量从 35% 迅速增加到 75%。这种突然的转移与量化开始失败的点同时发生。

特性	LLM.int8()	GPTQ
量化精度	8-bit (混合精度)	4-bit / 8-bit
激活处理	离群值 FP16，其余 INT8	激活保持 FP16/BF16
校准需求	无需校准数据 (Zero-shot)	需要校准数据集
推理速度	较慢 (分离计算开销)	较快 (硬件友好)
显存占用	中等	低 (尤其是 4-bit)
适用场景	快速验证，小批量测试	生产环境部署，长文本推理

大模型量化技术原理：LLM.int8()与GPTQ

大模型量化的对象

LLM.int8()

背景

技术原理

更多推荐文章

相关免费在线工具

GPTQ

背景

技术原理

方案对比与选择建议

结语

更多推荐文章

相关免费在线工具

大模型量化技术原理：LLM.int8()与GPTQ

大模型量化的对象

LLM.int8()

背景

技术原理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

GPTQ

背景

技术原理

方案对比与选择建议

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具