跳到主要内容 大模型 LLM 量化的 5 个基础技术知识 | 极客日志
Python AI 算法
大模型 LLM 量化的 5 个基础技术知识 探讨了大型语言模型(LLM)的量化技术,涵盖训练后量化(PTQ)与量化感知训练(QAT)的区别及优劣。分析了 GPTQ、QLoRA 等主流工具的应用场景,并通过困惑度、BLEURT 等指标评估量化效果,指出 2-bit 量化会严重损害文本连贯性,4-bit 是平衡性能与资源的最优选择。研究证实同等内存下大模型低位量化优于小模型高位量化。建议在实际部署中优先采用 4-bit 量化,并根据硬件条件权衡模型规模与精度,结合 Kruskal-Wallis 检验等统计方法验证量化影响,以实现高效稳定的模型部署。
竹影清风 发布于 2025/2/7 更新于 2026/4/20 3 浏览撰写本文的原因在于下载 Qwen 110B 模型时发现不同量化方案占用的内存差异巨大,旨在探究量化对推理能力的影响。
Qwen1.5-110B-Chat 的显存全精度部署 (32 位精度) 占用 220GB;8bit 量化部署需要 113GB 显存;4bit 量化部署需要 62GB 显存。
大型语言模型(LLMs)的量化是减小其大小和内存使用的关键策略,同时努力保持其质量。这种压缩技术对于在计算能力有限的设备上部署高级模型至关重要。
两种主要量化方式 量化是指将连续的无限值映射到较小的离散有限值集合的过程。在大型语言模型(LLMs)的背景下,量化是指将模型的权重从高精度数据类型转换为低精度数据类型的过程。
1. 训练后量化 (Post-Training Quantization, PTQ) PTQ 是指将已经训练好、微调好的模型权重转换为较低精度,而无需进行重新训练。这种方法简单易行,但由于权重值的精度降低,可能会稍微影响模型的性能。
简单理解:想象你有一个已经写好的程序,现在你想让它在更简单的计算机上运行,你可以把程序中的数字变得更简单。但是,这可能会让程序稍微变得没那么好用。
大多数 LLM 使用 Auto-GPTQ(Hugging Face 库中可用)来量化,包括 Llama、Qwen 等。
pip install auto-gptq optimum
有的用户不想要官方量化版本,可以下载全参数模型,使用 Auto-GPTQ 自行量化。
GPTQ 其实也是 PTQ 的一种,但它有一些特别之处。它使用一种混合的量化方案,将模型的权重量化为 4 位整数(int4),而保留激活值(activation)为 16 位浮点数(float16)。在推理(模型使用)时,权重会被动态地转换回浮点数,然后进行实际计算。这种方法带来了接近 4 倍的内存节省和可能的速度提升,因为权重使用了更低的带宽。
之所以要保留 activation 值为 float16,是因为 activation 4bit 量化后的效果会很糟糕,而权重 4bit 量化对质量影响较小。
2. 量化感知训练 (Quantization-Aware Training, QAT) 与 PTQ 不同,QAT 在训练阶段或者在训练后的微调阶段(fine-tuning)就进行权重转换。这通常会带来更好的模型性能,但需要更多的计算资源。一种广泛使用的 QAT 技术是 QLoRA。
简单理解:想象你在写程序的时候,就想着怎么让它在更简单的计算机上运行。这需要你花更多时间和精力,但最后程序可能会更好用。
在用 QAT 量化大型语言模型(LLMs)时,面临主要挑战:保持零样本泛化能力(zero-shot) 。
LLMs 在预训练时表现出很强的零样本泛化能力,这意味着它们能在没有见过的任务上也能表现不错。为了在量化后保持这种能力,选择合适的微调数据集很重要。如果 QAT 数据集的领域太窄或与原始预训练数据分布差异太大,可能会影响模型性能。
在《LLM-QAT: Data-Free Quantization Aware Training for Large Language Models》这篇论文中,主要引入了一种'无数据量化感知训练'(data-free QAT)方法。以 LLaMA models (7B, 13B, and 30B) 为例,这种方法使用模型自己生成的数据来进行训练。这样做可以更好地保持原始模型的输出分布,即使不使用原始训练数据也能取得很好的效果,尤其在较低位数的量化中。
LLM-QAT 量化了权重、激活值和 KV 缓存。
我在看这篇论文时,根据提供的图表,PTQ 和 QAT 差别也不大。
量化模型 4 个评估标准 Perplexity(困惑度) :作为评估语言模型性能的常用指标,用于衡量模型预测下一个词的不确定性。
BLEURT :基于 BERT 架构的学习型评估指标,专注于预测文本与参考材料之间的语义相似度。
ChrF :用于评估文本生成系统质量的自动评估指标,特别适用于机器翻译任务。
Frugalscore :提供快速评估文本质量的评估指标,适用于计算资源有限的环境。
METEOR :用于自然语言处理中评估机器翻译系统产生的文本质量的评估指标。
困惑度分析 :不同 LLM 量化方法的平均困惑度值与未量化模型相比没有显著偏差,但 2 位 GPTQ 量化方法显示出较高的困惑度,表明可能会降低预测性能。
BLEURT 分析 :量化模型在保持语义质量方面表现不一,有些量化版本与未量化模型的输出非常接近,而其他则显示出明显的下降,特别是 GPTQ 2-bit 方法导致负 BLEURT 分数,表明与未量化模型输出的显著偏差。
ChrF 分析 :除了 GPTQ 2-bit 外,所有量化方法的模型都达到了约 60% 的 ChrF 分数,表明与未量化模型输出有很强的相似性。
Frugalscore 分析 :三种量化方法(Bitsandbytes、GPTQ 4-bit 和 GGUF)在保持语义质量方面表现良好,而 GPTQ 2-bit 方法的 MoverScore 显著降低,表明文本质量和连贯性的显著减少。
METEOR 分析 :除了 GPTQ-2bit 外,其他三种量化方法在保持语义丰富性和句法准确性方面表现良好,而 GPTQ-2bit 的 METEOR 分数接近零,表明显著的质量下降。
根据上面记录,2-bit 量化严重影响了文本连贯性,怪不得最低都是 4 位量化。
为了进一步分析上述结果并确定哪种 LLM 量化方法影响最小,考虑进行 Kruskal-Wallis H 检验。这种非参数检验不需要假设数据来自特定的分布,可以比较不同量化方法的影响。如果出现显著差异,则进行后续测试,如 Dunn's 测试,以明确模型之间的具体对比。这一统计方法将阐明 LLM 量化如何影响每个模型,从而指导选择最佳保留模型质量的方法。
具体来说,Kruskal-Wallis H 检验是一种非参数检验方法,用于比较三组或以上样本之间是否存在显著差异。它使用秩代替实际数据,不需要假设数据来自正态分布。如果在 Kruskal-Wallis H 检验中发现显著差异,可以使用 Dunn's 测试进行后续的两两比较。Dunn's 测试通过将总体α水平除以比较次数来进行校正,以控制多重比较错误率。
这种统计方法的目的是通过非参数检验和后续测试,明确不同 LLM 量化方法对模型性能的影响,从而选择最佳的量化方法,以保持模型的质量。
4 bit 量化策略 最常见的量化就是从 16 位浮点数(float)量化成 4 位的整数(integer)。4 位量化被认为是在获得较好的生成质量的同时,又占用内存最小化的最佳量化位数。
再小,像上面说的 2-bit 量化会极大影响模型推理质量;再大,总还有些内存还可以再压缩。
尤其对于 70B 以上的大参数模型来说,参数越大的模型,4-bit 量化损失会越少;反而是越小的模型,需要 8-bit 量化。
绝大多数模型 8 位量化的效果表现都很不错,无论是哪种量化方式,而到了更低位数的 4 位就有一些挑战性。
同样内存,选大模型还是小模型 根据《LLM-QAT: Data-Free Quantization Aware Training for Large Language Models》这篇论文的研究,发现同样内存占用,大模型的低位量化版本比小模型的高位量化版本的生成质量高 。
一个 8-8-8 30B 量化模型的表现优于类似大小的 13B 模型,并且在实际使用中应该具有更低的延迟和更高的吞吐量。这对于 8 位的 13B 模型与 16 位的 7B 模型也同样适用。
量化工具概览 这张图解释了不同的量化方法,按照 GPU 和 CPU 主要分为用于 CPU 推理的 GGML 和用于 GPU 的 GPTQ 和 NF4。
具体各个工具怎么量化就不再细化说明,这篇主要对量化进行技术概念性介绍。
总结与建议
精度选择 :优先选择 4-bit 量化,这是平衡显存占用与模型性能的最佳甜点区。除非硬件极其受限,否则不建议尝试 2-bit 量化,因其会严重损害文本连贯性。
模型规模 :在同等显存预算下,优先部署参数量更大的模型的低比特版本,而非小参数模型的高比特版本,前者通常能提供更优的生成质量和吞吐量。
量化方法 :若追求部署效率且无法进行额外训练,推荐使用基于 PTQ 的 GPTQ 或 Bitsandbytes;若对特定领域有微调需求且资源充足,可考虑 QAT 或 QLoRA 以获得更好的泛化能力。
评估验证 :上线前务必使用 Perplexity、BLEURT 等指标在目标任务上进行验证,确保量化未造成不可接受的性能下降。
通过合理选择量化策略,可以在有限的硬件资源上高效部署高性能的大语言模型。
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online