大模型压缩技术：量化、剪枝与蒸馏原理详解

随着大语言模型（LLM）的参数量不断攀升，如何在资源受限的设备上高效部署成为关键挑战。扎克伯格曾指出 Llama3-8B 对于手机端依然过大，这促使业界探索更高效的模型压缩方案。量化、剪枝和蒸馏是三种通用的神经网络模型压缩技术，它们能将庞大的模型转化为适合边缘设备运行的轻量级版本。

一、模型压缩的意义与挑战

1.1 为什么需要压缩？

大模型通常包含数十亿甚至数千亿参数，直接部署面临以下瓶颈：

存储占用：FP32 精度的模型体积巨大，难以存入手机或嵌入式设备的闪存。
显存/内存压力：加载模型需要大量 RAM 或 VRAM，限制了并发处理能力。
计算延迟：高算力需求导致推理速度慢，无法满足实时交互场景。
能耗成本：高功耗不利于移动设备的续航及数据中心的运营成本。

通过压缩技术，可以在保持模型性能可接受的前提下，显著降低上述成本，扩展应用场景至手机、IoT 设备及低配服务器。

1.2 压缩的对象是什么？

模型的核心是参数，主要包括权重（Weights）和偏置（Biases）。在信号处理过程中，神经元接收输入信号，经过加权求和并加上偏置，再通过激活函数输出。这些权重和偏置构成了模型的'知识'。压缩的本质就是在不显著损失信息的前提下，减少表示这些参数所需的比特数或参数总数。

二、量化（Quantization）

量化是通过降低模型参数的数值精度来减小模型体积和提升计算效率的技术。

2.1 基本原理

训练时模型通常使用 FP32（32 位浮点数），量化将其转换为 INT8（8 位整数）、INT4 甚至更低精度。例如，将 32 位浮点权重转换为 8 位整数，理论上可将模型体积缩小为原来的 1/4。

类比理解：就像烹饪时称量食材。高精度电子秤能精确到 0.01 克，但家常做饭用最小刻度 1 克的秤即可满足需求。同理，部分模型对权重的微小变化不敏感，降低精度不会显著影响输出结果。

2.2 量化类型

静态量化（Static Quantization）：在训练完成后，基于校准数据集确定量化参数（如缩放因子、零点），运行时不再进行动态计算。适合模型分发和部署。
动态量化（Dynamic Quantization）：仅在推理时根据输入数据的分布动态调整量化参数，灵活性高但计算开销略大。
对称与非对称量化：对称量化假设数据分布关于零点对称，简化了计算；非对称则更灵活但增加了硬件负担。

2.3 优势与风险

优势：

显著减少内存占用。
利用现代 CPU/GPU 的低精度向量单元加速计算。
降低数据传输带宽需求。

风险：

精度下降可能导致模型准确率降低，尤其是极端值或稀疏分布的数据。
需要精细的校准策略（Calibration）来最小化误差。

三、剪枝（Pruning）

剪枝旨在移除模型中对任务贡献较小的参数或结构，使模型更加紧凑。

3.1 剪枝策略

非结构化剪枝：随机移除具体的权重值，产生稀疏矩阵。虽然压缩率高，但稀疏性难以被通用硬件加速，通常需要专用库支持。
结构化剪枝：移除整个通道、滤波器或层。生成的模型结构规整，可直接在标准硬件上获得加速，但实现难度较高。

3.2 评估指标

如何判断哪些参数不重要？常用方法包括：

幅度准则：绝对值接近 0 的权重被认为是不重要的，可以直接置零。
梯度信息：利用反向传播中的梯度大小评估参数对损失函数的敏感度。

大模型压缩技术：量化、剪枝与蒸馏原理详解