跳到主要内容 大模型 LLM 量化:5 个核心基础技术解析 | 极客日志
Python AI 算法
大模型 LLM 量化:5 个核心基础技术解析 大模型 LLM 量化的核心技术知识。首先阐述了训练后量化(PTQ)与量化感知训练(QAT)的区别及应用场景,重点分析了 GPTQ 和 QLoRA 的技术特点。其次列出了评估量化模型效果的五大标准,包括困惑度、BLEURT、ChrF 等,并指出 2-bit 量化会严重影响文本连贯性。文章还探讨了 4-bit 量化的优势,以及在同等内存下大模型量化版优于小模型高位量化版的结论。最后总结了常用量化工具如 GGML、GPTQ、NF4 和 Bitsandbytes 的适用场景,为模型部署提供技术参考。
暖阳 发布于 2025/2/7 更新于 2026/4/20 1 浏览大型语言模型(LLMs)的量化是减小其大小和内存使用的关键策略,同时努力保持其质量。这种压缩技术对于在计算能力有限的设备上部署高级模型至关重要。
例如,Qwen1.5-110B-Chat 的全精度部署(32 位精度)占用约 220GB 显存;8bit 量化部署需要 113GB 显存;而 4bit 量化部署则仅需 62GB 显存。
一、两种主要量化方式 量化是指将连续的无限值映射到较小的离散有限值集合的过程。在大型语言模型的背景下,量化是指将模型的权重从高精度数据类型转换为低精度数据类型的过程。
1. 训练后量化 (Post-Training Quantization, PTQ) PTQ 是指将已经训练好、微调好的模型权重转换为较低精度,而无需进行重新训练。这种方法简单易行,但由于权重值的精度降低,可能会稍微影响模型的性能。
简单理解: 想象你有一个已经写好的程序,现在你想让它在更简单的计算机上运行,你可以把程序中的数字变得更简单。但是,这可能会让程序稍微变得没那么好用。
大多数 LLM 使用 Auto-GPTQ(Hugging Face 库中可用)来量化,包括 Llama、Qwen 等模型。
pip install auto-gptq optimum
如果不想要官方量化版本,可以下载全参数模型,使用 Auto-GPTQ 自行量化。
GPTQ 其实也是 PTQ 的一种,但它有一些特别之处。它使用一种混合的量化方案,将模型的权重量化为 4 位整数(int4),而保留激活值(activation)为 16 位浮点数(float16)。在推理时,权重会被动态地转换回浮点数,然后进行实际计算。这种方法带来了接近 4 倍的内存节省和可能的速度提升,因为权重使用了更低的带宽。
之所以要保留 activation 值为 float16,是因为 activation 4 bit 量化后的效果会很糟糕,而权重 4 bit 量化对质量影响较小。
2. 量化感知训练 (Quantization-Aware Training, QAT) 与 PTQ 不同,QAT 在训练阶段或者在训练后的微调阶段(fine-tuning)就进行权重转换。这通常会带来更好的模型性能,但需要更多的计算资源。一种广泛使用的 QAT 技术是 QLoRA。
简单理解: 想象你在写程序的时候,就想着怎么让它在更简单的计算机上运行。这需要你花更多时间和精力,但最后程序可能会更好用。
在用 QAT 量化大型语言模型时,面临的主要挑战是保持零样本泛化能力(zero-shot)。LLMs 在预训练时表现出很强的零样本泛化能力,这意味着它们能在没有见过的任务上也能表现不错。为了在量化后保持这种能力,选择合适的微调数据集很重要。如果 QAT 数据集的领域太窄或与原始预训练数据分布差异太大,可能会影响模型性能。
在《LLM-QAT: Data-Free Quantization Aware Training for Large Language Models》这篇论文中,主要引入了一种'无数据量化感知训练'(data-free QAT)方法。以 LLaMA models (7B, 13B, and 30B) 为例,这种方法使用模型自己生成的数据来进行训练。这样做可以更好地保持原始模型的输出分布,即使不使用原始训练数据也能取得很好的效果,尤其在较低位数的量化中。
LLM-QAT 量化了权重、激活值和 KV 缓存。
二、量化模型评估标准
Perplexity(困惑度) :作为评估语言模型性能的常用指标,用于衡量模型预测下一个词的不确定性。不同 LLM 量化方法的平均困惑度值与未量化模型相比没有显著偏差,但 2 位 GPTQ 量化方法显示出较高的困惑度,表明可能会降低预测性能。
BLEURT :基于 BERT 架构的学习型评估指标,专注于预测文本与参考材料之间的语义相似度。量化模型在保持语义质量方面表现不一,有些量化版本与未量化模型的输出非常接近,而其他则显示出明显的下降,特别是 GPTQ 2-bit 方法导致负 BLEURT 分数,表明与未量化模型输出的显著偏差。
ChrF :用于评估文本生成系统质量的自动评估指标,特别适用于机器翻译任务。除了 GPTQ 2-bit 外,所有量化方法的模型都达到了约 60% 的 ChrF 分数,表明与未量化模型输出有很强的相似性。
Frugalscore :提供快速评估文本质量的评估指标,适用于计算资源有限的环境。三种量化方法(Bitsandbytes、GPTQ 4-bit 和 GGUF)在保持语义质量方面表现良好,而 GPTQ 2-bit 方法的 MoverScore 显著降低,表明文本质量和连贯性的显著减少。
METEOR :用于自然语言处理中评估机器翻译系统产生的文本质量的指标。除了 GPTQ-2bit 外,其他三种量化方法在保持语义丰富性和句法准确性方面表现良好,而 GPTQ-2bit 的 METEOR 分数接近零,表明显著的质量下降。
根据上述记录,2-bit 量化严重影响了文本连贯性,因此最低推荐通常是 4 位量化。
为了进一步分析结果并确定哪种 LLM 量化方法影响最小,可以考虑进行 Kruskal-Wallis H 检验。这种非参数检验不需要假设数据来自特定的分布,可以比较不同量化方法的影响。如果出现显著差异,则进行后续测试,如 Dunn's 测试,以明确模型之间的具体对比。这一统计方法将阐明 LLM 量化如何影响每个模型,从而指导选择最佳保留模型质量的方法。
具体来说,Kruskal-Wallis H 检验是一种非参数检验方法,用于比较三组或以上样本之间是否存在显著差异。它使用秩代替实际数据,不需要假设数据来自正态分布。如果在 Kruskal-Wallis H 检验中发现显著差异,可以使用 Dunn's 测试进行后续的两两比较。Dunn's 测试通过将总体α水平除以比较次数来进行校正,以控制多重比较错误率。
这种统计方法的目的是通过非参数检验和后续测试,明确不同 LLM 量化方法对模型性能的影响,从而选择最佳的量化方法,以保持模型的质量。
三、4-bit 量化的优势 最常见的量化就是从 16 位浮点数(float)量化成 4 位的整数(integer)。4 位量化被认为是在获得较好的生成质量和占用内存最小化之间的最佳平衡点。
再小,像上面说的 2-bit 量化会极大影响模型推理质量;再大,总还有些内存还可以再压缩。尤其对于 70B 以上的大参数模型来说,参数越大的模型,4-bit 量化损失会越少;反而是越小的模型,可能需要 8-bit 量化以保证效果。
绝大多数模型 8 位量化的效果表现都很不错,无论是哪种量化方式,而到了更低位数(如 4 位)就有一些挑战性。
四、同样内存下:大模型量化版 vs 小模型 根据《LLM-QAT: Data-Free Quantization Aware Training for Large Language Models》的研究,发现同样内存占用,大模型的量化版本比小模型的高位量化版本的生成质量高 。
一个 8-8-8 30B 量化模型的表现优于类似大小的 13B 模型,并且在实际使用中应该具有更低的延迟和更高的吞吐量。这对于 8 位的 13B 模型与 16 位的 7B 模型也同样适用。
五、常用量化工具 不同的量化方法按照 GPU 和 CPU 主要分为用于 CPU 推理的 GGML 和用于 GPU 的 GPTQ 和 NF4。
GGML/GGUF :主要用于 CPU 推理,适合资源受限环境。
GPTQ :主要用于 NVIDIA GPU,支持 4-bit 量化,速度快。
NF4 :Normal Float 4-bit,常用于 QLoRA 场景。
Bitsandbytes :支持多种量化格式,广泛用于 PyTorch 生态。
具体各个工具怎么量化不再细化说明,本文主要对量化进行技术概念性介绍。在实际部署中,建议根据硬件环境(CPU/GPU 类型)和显存限制选择合适的工具链。
总结 LLM 量化是降低部署成本的关键技术。PTQ 适合快速部署,QAT 适合追求极致性能的场景。评估时需关注 Perplexity 及语义相似度指标。通常情况下,4-bit 量化是性价比最高的选择,且大模型量化版往往优于小模型高位量化版。开发者应根据硬件条件选择合适的工具(如 GPTQ、GGUF、Bitsandbytes)进行部署。
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online