LoRA 与 QLoRA 微调实践：基于数百次实验的 LLM 见解 | 极客日志

PythonAI算法

LoRA 与 QLoRA 微调实践：基于数百次实验的 LLM 见解

综述由AI生成基于数百次实验，深入分析了 LoRA 和 QLoRA 微调语言大模型的技术细节。研究发现 QLoRA 虽增加训练时间但能显著节省内存，适合在小显存设备上运行。优化器方面，SGD 与 AdamW 在 LoRA 场景下内存节省差异不大，性能相当。多次迭代数据集反而导致性能下降。关键发现在于 LoRA 超参数调优：增大秩 r 需配合更大的 alpha 值（建议 alpha=2*r），当 r=256 且 alpha=512 时模型表现最佳。实验表明，合理的超参数配置能显著提升模型在算术及通用基准测试上的能力。

MqEngine发布于 2025/2/7更新于 2026/6/327 浏览

LoRA 与 QLoRA 微调揭秘：数百次实验后的语言大模型见解

LoRA 是用于训练自定义 LLM 的高效参数微调技术。本文作者 Sebastian Raschka 通过成百上千次实验，为使用 LoRA 和 QLoRA 对 LLM 进行微调提供了实用见解，包括节省内存、选择最佳配置等。

过去几个月里，我进行了成百上千次有关 LoRA 的实验。几周前，我花时间更深入地研究了一些超参数选择问题。

本文更像是一篇按时间顺序呈现的实验日记，我希望它对某些人能够有所帮助。具体而言，本文旨在回答一些关于 QLoRA 价值的问题：如是否应该用 SGD 取代 AdamW，使用调度器（scheduler）的潜在价值，以及如何调整 LoRA 的超参数。

关于实验有很多需要讨论的内容，因此我对 LoRA 的介绍会尽可能简明扼要。

简而言之，LoRA（Low-Rank Adaptation 的缩写）（Hu 等，2021）在保持原始模型参数不变的同时，在模型中添加了一小部分可训练参数。

如下图所示，LoRA 将权重矩阵分解为两个较小的权重矩阵，以便用更高效参数的方式近似完全监督微调。

1. 评估任务与数据集

本文的重点是如何选择最佳设置。为保持在合理范围内，我将保持数据集不变，仅关注 LLM 的监督指令微调。（可能会在后续文章中讨论有关数据集或分类微调的修改。）

关于模型评估，我从 Eleuther AI 提供的标准化评估工具包中选择了一小部分数据集，包括 TruthfulQA、BLiMP Causative 和 MMLU Global Facts，以及两位和四位数的简单计算任务。

在每个基准测试中，模型的性能得分被归一化到 0 到 1 之间，1 表示满分。TruthfulQA 报告了两项得分，定义如下：

MC1 (单选题)：给定一个问题和 4-5 个候选答案，选择唯一的正确答案。分数是所有问题的简单准确率。
MC2(多选题)：给定一个问题和多个正确/错误参考答案，得分为模型赋予正确答案集合的归一化总概率。

175B GPT-3 模型的 TruthfulQA 的 MC1 和 MC2 值分别为 0.21 和 0.33（供参考）。

以下是两个用于说明算数 2ds 和算数 4ds 之间区别的例子。

算数 2ds：'59 减去 38 等于多少。' '21。'
算数 4ds：'2762 加上 2751 等于多少。' '5513。'

如上所述，在保持数据集不变的情况下，我使用了经广泛研究或常用的 Alpaca 数据集进行监督指令微调。当然，还有许多其他适用于指令微调的数据集，如 LIMA、Dolly、LongForm 和 FLAN 等等。然而，在多个数据集和数据集混合上进行训练将是未来研究的一个有趣课题。

Alpaca 数据集包含约 50000 个指令 - 回应对用于训练，输入的文本长度中位数为 110 个词元（使用 LLaMA 2 SentencePiece 分词器）。

数据集任务本身可以按照下图所示的方式进行结构化。

2. 代码框架

在本文中，我使用了基于开源 Lit-GPT 存储库的自定义 LLM 微调代码。为保持本文前言简洁明了，可参阅 Lit-GPT 教程部分的详细指南，以了解使用细节。

简而言之，使用方法如下：

1) 复制代码库并安装需求

git clone https://github.com/Lightning-AI/lit-gpt
cd lit-gpt
pip install -r requirements.txt

2) 下载并准备模型 checkpoint

python scripts/download.py \
  --repo_id mistralai/Mistral-7B-Instruct-v0.1
# there are many other supported models
python scripts/convert_hf_checkpoint.py \
  --checkpoint_dir checkpoints/mistralai/Mistral-7B-Instruct-v0.1

3) 准备数据集

python scripts/prepare_alpaca.py \
  --checkpoint_dir checkpoints/mistralai/Mistral-7B-Instruct-v0.1
# or from a custom CSV file
python scripts/prepare_csv.py \
  --csv_dir MyDataset.csv \
  --checkpoint_dir checkpoints/mistralai/Mistral-7B-Instruct-v0.1

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

python finetune/lora.py \
  --checkpoint_dir checkpoints/mistralai/Mistral-7B-Instruct-v0.1/ \
  --precision bf16-true

python scripts/merge_lora.py \
  --checkpoint_dir "checkpoints/mistralai/Mistral-7B-Instruct-v0.1" \
  --lora_path "out/lora/alpaca/Mistral-7B-Instruct-v0.1/lit_model_lora_finetuned.pth" \
  --out_dir "out/lora_merged/Mistral-7B-Instruct-v0.1/"

cp checkpoints/mistralai/Mistral-7B-Instruct-v0.1/*.json \
  out/lora_merged/Mistral-7B-Instruct-v0.1/

python eval/lm_eval_harness.py \
  --checkpoint_dir "out/lora_merged/Mistral-7B-Instruct-v0.1/" \
  --eval_tasks "[arithmetic_2ds, ..., truthfulqa_mc]" \
  --precision "bf16-true" \
  --batch_size 4 \
  --num_fewshot 0 \
  --save_filepath "results.json"

python chat/base.py \
  --checkpoint_dir "out/lora_merged/Mistral-7B-Instruct-v0.1/"

# Hyperparameters
learning_rate = 3e-4
batch_size = 128
micro_batch_size = 1
max_iters = 50000  # train dataset size
weight_decay = 0.01
lora_r = 8
lora_alpha = 16
lora_dropout = 0.05
lora_query = True
lora_key = False
lora_value = True
lora_projection = False
lora_mlp = False
lora_head = False
warmup_steps = 100

LoRA 与 QLoRA 微调实践：基于数百次实验的 LLM 见解

LoRA 与 QLoRA 微调揭秘：数百次实验后的语言大模型见解

1. 评估任务与数据集

2. 代码框架

更多推荐文章

相关免费在线工具

3. 选择合适的基准模型

4. 评估 LoRA 的默认设置

5. 使用 QLoRA 节省内存

6. 学习率调度器与 SGD

7. 多次迭代数据集

8. LoRA 超参数微调：适用于所有层的 LoRA

9. LoRA 超参数微调：增加 R 值

10. LoRA 超参数调优：更改 Alpha

11. LoRA 超参数调优：超大 R 值

12. 排行榜提交

13. 结论

更多推荐文章

相关免费在线工具

LoRA 与 QLoRA 微调实践：基于数百次实验的 LLM 见解

LoRA 与 QLoRA 微调揭秘：数百次实验后的语言大模型见解

1. 评估任务与数据集

2. 代码框架

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 选择合适的基准模型

4. 评估 LoRA 的默认设置

5. 使用 QLoRA 节省内存

6. 学习率调度器与 SGD

7. 多次迭代数据集

8. LoRA 超参数微调：适用于所有层的 LoRA

9. LoRA 超参数微调：增加 R 值

10. LoRA 超参数调优：更改 Alpha

11. LoRA 超参数调优：超大 R 值

12. 排行榜提交

13. 结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具