LLM 模型微调：PEFT 与 QLoRA 技术总结

1. QLoRA 的提出背景

1.1 量化（Quantization）

量化是指将模型的低精度表示，即把输入从存储更多信息的表征映射为存储较少信息表征的过程。例如将 FP32 的数据转化为 INT8，能够节省大量的内存。

全局量化方式存在问题：当输入中存在极大值或者离群值（outlier）时，一些较小的参数无法被精确表示，导致量化后的神经网络效果下降很多。为了缓解这个问题，作者采用了分块量化（Block-wise Quantization），即将输入划分为多个 block，每个 block 分别量化。

Block-wise k-bit Quantization（分块 k 位量化）：在将 float32 量化为 int8 时，通常使用常数 c 缩小范围，但 outlier 会影响 c 的选取。Block-wise 方法通过每批次独立选择 c（本文中为 64 个数据）来解决此问题。

1.2 Low-rank Adapters (LoRA)

LoRA 微调是通过使用少量可训练参数来降低内存需求的方法，同时不更新完整模型中保持固定的参数。在随机梯度下降过程中，梯度通过固定的预训练模型权重传递到适配器，适配器被更新以优化损失函数。

对比 LoRA 和 QLoRA 的核心区别在于 QLoRA 引入了更激进的量化策略，使得在极低显存下也能进行大模型微调。

2. QLoRA 的技术原理

QLoRA 训练过程跟 LoRA 基本上是一致的，区别在于 QLoRA 模型是按照 NF4 保存的，训练时需要把参数反量化到 bf16 后进行训练。QLoRA 结合了低精度存储数据类型（NF4）+ 计算数据类型（BFloat16）。

QLoRA 主要使用了以下三项关键技术来实现高效 4bit 微调：

NF4 量化：4-bit NormalFloat 量化。
双重量化（Double Quantization）：针对量化常数的二次量化。
分页优化器（Paged Optimizers）：防止内存不足。

2.1 4-bit NormalFloat (NF4)

4-bit NormalFloat 量化是对 Quantile Quantization（分位量化）进行了改进，并结合 Block-wise Quantization，降低计算复杂度和误差。该策略基于分块的分位数量化，专门针对正态分布的权重进行了优化。

2.2 双重量化（Double Quantization）

这是针对量化常数的二次量化。由于 BnB 的量化是块量化（block-wise），因此块级别的常数存储也会占用 GPU memory。对第一次量化后的那些常量再进行一次量化，减少存储空间。

具体而言，QLoRA 将每 64 个参数作为一个 block，即 block size=64，每个 block 计算一个 Scale。由于量化后的 Scale 通常以 FP32 存储，在 block 数众多的情况下，Scale 占用的显存也不可忽视。因此，QLoRA 对 Scale 进一步量化成 FP8，取 Double Quant 的 block size=256，因而进一步降低了显存消耗。

Double Quant 前，每个参数做量化会需要额外的 32/64 = 0.5 bits 显存。
Double Quant 后，每个参数做量化只需要额外的 8/64 + 32/(64*256) ≈ 0.127 bits 显存。

2.3 分页优化器（Paged Optimizers）

为防止梯度检查点所引起的内存波动导致的内存不足错误，使用 NVIDIA 统一内存特性。该特性可以在 GPU 偶尔 OOM 的情况下，进行 CPU 和 GPU 之间自动的页面切换，以实现无错误的 GPU 处理。使用此功能为优化器状态（Optimizer）分配分页内存，然后在 GPU 内存不足时将其自动卸载到 CPU 内存，并在优化器更新步骤需要时将其加载回 GPU 内存。

2.4 All-Linear-Layer-Adapter

QLoRA 在所有全连接层都插入 LoRA Adapter，增加训练参数，弥补精度带来的性能损失，能匹配 16 位全参数微调的性能。在 LoRA 中，一般会选择在 query 和 value 的全连接层处插入 adapter。

3. QLoRA 的细节补充

3.1 NF4 量化详解

作者提出的 4-bit NormalFloat 量化是对 Quantile Quantization 的改进。全局量化后参数整体的分布与原始的分布差别很大，例如出现极大 outlier 值，可能导致大部分参数都会量化到 0，这样效果就会下降很明显。

!pip install -q -U bitsandbytes !pip install -q -U git+https://github.com/huggingface/transformers.git !pip install -q -U git+https://github.com/huggingface/peft.git !pip install -q -U git+https://github.com/huggingface/accelerate.git !pip install -q -U datasets import torch from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig model_id = "EleutherAI/gpt-neox-20b" bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_use_double_quant=True, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype=torch.bfloat16 ) tokenizer = AutoTokenizer.from_pretrained(model_id) # 加载 model 使用 qlora model = AutoModelForCausalLM.from_pretrained( model_id, quantization_config=bnb_config, device_map={"": 0} ) from peft import prepare_model_for_kbit_training model.gradient_checkpointing_enable() model = prepare_model_for_kbit_training(model) def print_trainable_parameters(model): """ Prints the number of trainable parameters in the model. """ trainable_params = 0 all_param = 0 for _, param in model.named_parameters(): all_param += param.numel() if param.requires_grad: trainable_params += param.numel() print( f"trainable params: {trainable_params} || all params: {all_param} || trainable%: {100 * trainable_params / all_param}" ) from peft import LoraConfig, get_peft_model config = LoraConfig( r=8, lora_alpha=32, target_modules=["query_key_value"], lora_dropout=0.05, bias="none", task_type="CAUSAL_LM" ) model = get_peft_model(model, config) print_trainable_parameters(model) from datasets import load_dataset data = load_dataset("Abirate/english_quotes") data = data.map(lambda samples: tokenizer(samples["quote"]), batched=True) import transformers # needed for gpt-neo-x tokenizer tokenizer.pad_token = tokenizer.eos_token trainer = transformers.Trainer( model=model, train_dataset=data["train"], args=transformers.TrainingArguments( per_device_train_batch_size=1, gradient_accumulation_steps=4, warmup_steps=2, max_steps=10, learning_rate=2e-4, fp16=True, logging_steps=1, output_dir="outputs", optim="paged_adamw_8bit" ), data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False), ) model.config.use_cache = False # silence the warnings. Please re-enable for inference! trainer.train()

LLM 模型微调：PEFT 与 QLoRA 技术总结