LoRA 微调 LLaMA 类模型：原理与实战指南

低秩自适应（LoRA）是一种高效的参数微调技术，通过冻结预训练权重并引入可训练的低秩分解矩阵，大幅减少下游任务的可训练参数量。 LoRA 的原理、秩的选择策略及其在 LLaMA 模型上的实战效果。实验表明，LoRA 能在单卡 GPU 上以较低资源消耗实现接近全量微调的性能，且推理时无额外开销，适合资源受限场景下的指令微调。

草莓泡芙发布于 2025/2/7更新于 2026/6/517 浏览

LoRA 微调 LLaMA 类模型：原理与实战指南

简介

低秩自适应（Low-Rank Adaptation，简称 LoRA）随着大语言模型（LLM）的兴起而受到广泛关注。近期，ChatGPT 等一系列大模型的相继出现，导致算力需求日益紧缺。虽然构建专属大模型的需求强烈，但能够负担上亿参数模型全量训练的机构寥寥无几。在人工智能快速发展的背景下，以高效、有效的方式使用大型语言模型变得尤为重要。

LoRA 作为微调 LLM 的一种流行技术，通过引入可训练的低秩分解矩阵，同时固定预训练权重，大幅减少了下游任务的可训练参数量。本文将深入探讨如何以高效的方式利用 LoRA 来微调 LLM。

为什么要进行微调？

预训练大语言模型通常被称为基础模型，因为它们在各种任务中表现良好，可作为目标任务微调的基础。然而，大模型的计算成本可能非常昂贵——模型越大，更新其网络层的成本越高。如果不想更新网络中的所有层，可以使用前缀微调、适配器（Adapter）等高效调参方法。目前，Hu 等人提出的低秩自适应（LoRA）是一种更为流行的微调技术。

本文旨在回答以下问题：什么是 LoRA？它是如何工作的？它与其他流行的微调方法相比有何优劣？

![图：LoRA 微调概念示意图]

提高权重更新效率

论文《LoRA: Low-Rank Adaptation of Large Language Models》提出将权重变化 ΔW 分解为秩较低的表示。LoRA 不会直接分解矩阵，而是通过反向传播来学习分解的矩阵。

常规微调训练程序

首先解释常规微调期间的训练程序。假设 W 表示给定神经网络层中的权重矩阵。使用常规反向传播，我们可以获得权重更新 ΔW，它通常被计算为损失乘以学习率的负梯度：

ΔW = -η * ∇L(W)

得到 ΔW 后，原始权重按如下公式更新：

W' = W + ΔW

或者，我们可以保持权重更新矩阵分离，并按如下公式计算输出：

h = Wx + ΔWx

其中 x 表示输入。

当在神经网络中训练全连接（dense）层时，权重矩阵通常具有全秩，这意味着矩阵不具有任何线性相关（即冗余）的行或列。相比之下，低秩意味着矩阵具有冗余的行或列。

尽管预训练模型的权重是满秩矩阵，但 LoRA 的作者指出，预训练的大型语言模型在适应新任务时具有较低的内在维度。低内在维度意味着数据可以由低维空间有效地表示或近似，同时保留大部分基本信息或结构。换句话说，可以将适应任务的新权重矩阵分解为低维（较小）矩阵，而不会丢失太多重要信息。

例如，假设 ΔW 是 A×B 维权重矩阵的权重更新矩阵，这个权重更新矩阵可以分解为两个较小的矩阵：ΔW = WA * WB，其中 WA 是 A×r 维矩阵，WB 是 r×B 维矩阵。在这里，我们保持原始权重 W 冻结，并且只训练新的矩阵 WA 和 WB。

![图：LoRA 权重分解示意图]

选择秩 (Rank)

上图中的 r 是超参数，指定用于自适应的低秩矩阵的秩。r 越小，低秩矩阵越简单，在自适应过程中需要学习的参数越少，训练越快，计算需求相应减少。然而，r 变小的弊端是，低秩矩阵捕获任务特定信息的能力降低。这可能导致较低的自适应质量，并且与较高的 r 相比，模型在新任务上可能表现不佳。

总之，在 LoRA 中确定 r 的取值，需要在模型复杂性、自适应能力和拟合不足或拟合过度的风险之间进行权衡。因此，重要的是用不同的 r 值进行实验，以找到正确的平衡，从而在新任务中满足所需的性能。

LoRA 实战

LoRA 的使用很直接，可以将其视为 LLM 中全连接层的前向传递修正版。伪代码如下所示：

h = Wx + BA * x / alpha

在上面的伪代码中，alpha 是一个缩放因子，用于调整组合结果的大小（原始模型输出加上低秩自适应）。这平衡了预训练模型的知识和新的任务特定适应——默认情况下，alpha 通常设置为 1。还要注意，当 WA 被初始化为小的随机权重时，WB 被初始化为 0，从而使得初始状态 h = Wx，这意味着需要从原始权重开始训练。

参数效率

接下来说一说最棘手的问题：如果引入新的权重矩阵，参数如何才能有效？新的矩阵 WA 和 WB 可以非常小。例如，假设 A=100，B=500，那么 ΔW 的大小为 100×500=50000。如果将其分解为两个较小的矩阵，一个 100×5 维矩阵 WA 和一个 5×500 维矩阵 WB。这两个矩阵总共只有 5×100+5×500=3000 个参数。

减少推理开销

在实践中，如果在如上所示的训练后保持原始权重 W 以及矩阵 WA 和 WB 处于分离状态，推理过程中就会额外产生效率损失，因为引入了额外的计算步骤。相反可以在训练后通过 W' = W + WA·WB 更新权重，这类似于前面提到的 W' = W + ΔW。

然而，保持权重矩阵 WA 和 WB 分离也可能有些优势。例如，假设希望保留预训练的模型作为各种客户的基础模型，并且希望从基础模型开始为每个客户创建一个微调的 LLM。在这种情况下，就不需要为每个客户存储完整的权重矩阵 W'。不然存储模型的所有权重 W' = W + WA WB 对于 LLM 来说可能非常大，因为 LLM 通常具有数十亿到数万亿的权重参数。因此，可以保留原始模型 W，只需要存储新的轻量级矩阵 WA 和 WB。用具体的数字来说明的话，一个完整的 7B LLaMA checkpoint 需要 23 GB 的存储容量，而选择 r=8 的秩，则 LoRA 权重可以小到 8 MB。

LoRA 微调 LLaMA 类模型：原理与实战指南

LoRA 微调 LLaMA 类模型：原理与实战指南

简介

为什么要进行微调？

提高权重更新效率

常规微调训练程序

选择秩 (Rank)

LoRA 实战

参数效率

减少推理开销

更多推荐文章

相关免费在线工具

实践效果

LoRA & LLaMA

计算性能基准

评估建模性能

基准模型

LLaMA-Adapter

LoRA

结论

更多推荐文章

相关免费在线工具

LoRA 微调 LLaMA 类模型：原理与实战指南

LoRA 微调 LLaMA 类模型：原理与实战指南

简介

为什么要进行微调？

提高权重更新效率

常规微调训练程序

选择秩 (Rank)

LoRA 实战

参数效率

减少推理开销

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

实践效果

LoRA & LLaMA

计算性能基准

评估建模性能

基准模型

LLaMA-Adapter

LoRA

结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具