单卡 RTX 3090 实现 LLaMA-3 8B 低比特量化全参微调

背景与挑战

自 2010 年起，AI 技术历经多个重大发展阶段，深度学习的崛起显著推动了技术前进。尤其是 2022 年底推出的 ChatGPT，彰显了大语言模型（LLM）的能力达到了前所未有的水平。生成式 AI 大模型迅速进入高速发展期，被誉为第四次工业革命的驱动力。然而，在商业化过程中，大模型因成本过高成为企业的一大负担。持续的技术突破虽然令人鼓舞，但如果落地阶段的成本无法控制，便难以持续资助研发。

开源大模型的兴起正逐步改变这一局面。普通的消费级 GPU 就能够支持 7B/8B 规模模型的全参数微调操作，可能比采用高成本闭源模型成本低几个数量级。在这种去中心化的 AI 范式下，开源模型的应用在保证质量的前提下，可以显著降低边际成本。此外，经过量化压缩的较大模型在性能上往往优于同等大小的预训练小模型，说明量化压缩后的模型仍然保持了优秀的能力。

在云端大模型不断探索技术极限的同时，市场对于能够快速落地和支撑高速成长的智能应用有着迫切需求。边缘计算中的大模型——特别是中小型模型如 7B 和 13B 的模型——因其高性价比和良好的可调性而受到青睐。企业更倾向于自行微调这些模型，以确保应用的稳定运行和数据质量的持续控制。尽管云端模型在处理复杂任务时精度高，但它们面临关键挑战：

推理服务的基础设施成本：支持 AI 推理的高性能硬件稀缺且昂贵，集中式商业运营带来的边际成本递增问题成为 AI 业务从 1 到 10 必须翻越的障碍。
推理延迟：生产环境中模型必须快速响应，任何延迟都会直接影响用户体验。
隐私和数据保护：涉及敏感信息的商业应用场景中，使用第三方云服务处理敏感数据可能会引发隐私和安全问题。

考虑到这些挑战，边缘计算提供了一个有吸引力的替代方案。在边缘设备上直接运行中小模型不仅能降低数据传输的延迟，提高响应速度，而且有助于在本地处理敏感数据。

现有方案的不足与我们的出发点

在当前的开源模型和工具生态中，仍面临一系列不足之处。首先，这些模型和工具往往并未针对本地部署场景进行优化，导致在本地运用时常常受限于算力和内存资源。例如，即便是相对较小的 7B 规模模型，也可能需要高达 60GB 的 GPU 显存来进行全参数微调。此外，现有的量化技术虽然在模型推理部署中表现良好，但其主要用途是减少模型部署时的内存占用。量化后的模型权重在微调过程中无法进行优化，这限制了开发者在资源有限的情况下使用较大模型的能力。

我们的出发点在于解决上述痛点。基于 Neural Architecture Search (NAS) 以及相匹配的 Post-Training Quantization (PTQ) 量化方案，我们提供了超过 200 个从不同规模开源大模型序列压缩而来的低比特量化小模型。同时，我们推出了 Bitorch Engine 开源框架以及专为低比特模型训练设计的 DiodeMix 优化器。开发者可以直接对低比特量化模型在量化空间进行全参数监督微调与继续训练，实现了训练与推理表征的对齐，大幅度压缩模型开发与部署的中间环节。

通过结合低比特权重训练技术和低秩梯度技术，我们就能实现在单卡 RTX 3090 GPU 上对 LLaMA-3 8B 模型进行全参数微调。上述解决方案简洁有效，不仅节省资源，而且有效地解决了量化模型精度损失的问题。

图 1. 单卡 3090 实现 LLaMA-3 8B 全参微调

模型量化技术细节

大模型时代的显著特征之一便是模型对计算资源需求的大幅度攀升。GPTQ 与 AWQ 等权重 PTQ 压缩方案以可扩展的方式验证了大语言模型在 4-bit 表征上的可靠性。与此同时，QLoRA 巧妙地将 4-bit LLM 表征与 LoRA 技术相结合，将低比特表征推广至监督微调阶段。

相比于 INT4，更低比特的 Round-To-Nearest (RTN) 量化如 INT2 表征通常要求原始模型有着更平滑的连续参数空间才能保持较低的量化损失。近期 layer-Importance 等多项工作则进一步观测到了不同深度的 transformer 模块对模型容量的参与度也表现出非均匀分布的特性。基于这些工作的启发，我们探索了一种搜索与校准结合的 Two-stage LLM 低比特量化方案。

1. 混合精度 NAS 搜索

首先，利用 NAS 相关方法对大语言模型参数空间的量化敏感性进行搜索与排序，利用经典的混合精度表征实现模型参数中的最优比特位分配。为降低模型量化后的大规模硬件部署难度，我们放弃了复杂的矢量量化与 INT3 表征等设计，采用经典 Group-wise MinMax Quantizer，同时仅选择 INT4 (group size 128) 与 INT2 (group size 64) 作为基础量化表征。

我们探索了 Layer-mix 与 Channel-mix 两种排布下的混合精度搜索空间。其中，Channel-mix 量化由于能更好适配 transformer 架构的系统性激活涌现现象，往往能达到更低的量化损失，而 Layer-mix 量化在具备更优的硬件友好度的同时仍然保持了极佳的模型容量。利用高效的混合精度 NAS 算法，我们能在数小时内基于低端 GPU 如 RTX 3090 上完成对 Qwen1.5 110B 大模型的量化排布统计，并基于统计特性在数十秒内完成任意低比特量级模型的最优架构搜索。