大模型高效微调 LoRA 原理详解与训练过程分析

一、LoRA 原理

LoRA（Low-Rank Adaptation of LLMs），即大语言模型的秩适应，是目前参数高效微调（PEFT）中最常用的方法之一。

LoRA 的本质是用更少的训练参数来近似全参数微调所得的增量参数，从而达到在有限显存下实现高效微调的目标。

1.1 问题定义

LoRA 的训练目标通常与预训练任务解耦，但在本分析中设定为语言建模任务。以下给出语言建模的基本符号定义，即最大化给定提示的条件概率（本质是极大似然估计）。

给定一个参数为 $\mathbf{\Phi}$ 的预训练自回归语言模型 $P_{\mathbf{\Phi}}(y|x)$。其中 $x$ 为输入序列，$y$ 为输出序列。注：为与原文符号一致，下文 $\mathbf{\Phi}$、$\mathbf{\Theta}$、$\mathbf{W}$ 均表示模型参数。

全参数微调

每次 Full Fine-tuning 训练，需要学习一个增量矩阵 $\Delta \mathbf{\Phi}$。由于 $|\Delta \mathbf{\Phi}|$ 参数量巨大，对显存和计算资源要求极高。

![图片]

语言模型的条件概率分布建模目标。

高效微调

$\Delta \mathbf{\Phi}$ 是特定于下游任务的增量参数。LoRA 将 $\Delta \mathbf{\Phi} = \Delta \mathbf{\Phi}(\mathbf{\Theta})$，用参数量更少的 $\mathbf{\Theta}$ 来编码（通过低秩降维表示来近似），满足 $|\mathbf{\Phi}| << |\mathbf{\Theta}|$。

![图片]

LoRA 训练目标。

Transformer 架构参数

Transformer 层的输入和输出维度大小为 $d_{model}$。
$\mathbf{W_q}$、$\mathbf{W_k}$、$\mathbf{W_v}$ 和 $\mathbf{W_o}$ 分别代表自注意力机制中的 Query、Key、Value 和 Output 投影矩阵。
$\mathbf{W}$ 或 $\mathbf{W_0}$ 代表预训练的权重矩阵。
$\Delta\mathbf{W}$ 是微调后得到的增量参数矩阵（训练后优化算法在参数上的累计更新量）。
$r$ 代表 LoRA 模块的秩。

1.2 LoRA 简介

LoRA 的核心思想是，在冻结预训练模型权重的情况下，将可训练的低秩分解矩阵注入到 Transformer 架构的每一层中，从而大大减少了下游任务上的可训练参数量。

![图片]

LoRA 结构示意。

We propose Low-Rank Adaptation (LoRA), which freezes the pre-trained model weights and injects trainable rank decomposition matrices into each layer of the Transformer architecture, greatly reducing the number of trainable parameters for downstream tasks.

在推理时，对于使用 LoRA 的模型，可直接将原预训练模型权重与训练好的 LoRA 权重合并，因此在推理阶段不存在额外开销。

1.3 为什么要 LoRA

背景

通常，冻结预训练模型权重并额外插入可训练权重是常规做法，例如 Adapter。可训练的权重学习的是微调数据的知识。但它们的问题在于，不仅额外增加了参数，而且还改变了模型结构。这会导致模型训练、推理的计算成本和内存占用急剧增加，尤其在模型参数需在多 GPU 上分布式推理时（这越来越常见）。

![图片]

推理性能比较。

动机

深度网络由大量 Dense 层构成，这些参数矩阵通常是满秩的。相关工作表明，当适配特定任务时，训练学到的过度参数化的模型实际上存在于一个较低的内在维度上（高维数据实际是在低维子空间中）。

We take inspiration from Li et al. (2018a); Aghajanyan et al. (2020) which show that the learned over-parametrized models in fact reside on a low intrinsic dimension.

![图片]

低秩矩阵示意。

LoRA 假设 LLM 在下游任务上微调得到的增量参数矩阵 $\Delta \mathbf{W}$ 是低秩的（肯定不是满秩），即存在冗余参数或高度相关的参数矩阵，但实际有效参数是更低维度的。

方法	精度	7B	13B	30B	70B	8x7B	8x22B
Full	AMP	120GB	240GB	600GB	1200GB	900GB	2400GB
Full	16	60GB	120GB	300GB	600GB	400GB	1200GB
Freeze	16	20GB	40GB	80GB	200GB	160GB	400GB
LoRA/GaLore/BAdam	16	16GB	32GB	64GB	160GB	120GB	320GB
QLoRA	8	10GB	20GB	40GB	80GB	60GB	160GB
QLoRA	4	6GB	12GB	24GB	48GB	30GB	96GB
QLoRA	2	4GB	8GB	16GB	24GB	18GB	48GB

大模型高效微调 LoRA 原理详解与训练过程分析

一、LoRA 原理

1.1 问题定义

1.2 LoRA 简介

1.3 为什么要 LoRA

更多推荐文章

相关免费在线工具

1.4 LoRA 实现

1.5 LoRA 参数初始化

1.6 LoRA 权重系数 $\frac{\alpha}{r}$

1.7 LoRA 的秩 $r$ 如何选择

1.8 LoRA 的微调的参数选取

二、LoRA 训练

2.1 LoRA 训练的梯度计算

2.2 反向传播计算量

2.3 LoRA 在哪里减少了显存占用

三、效率分析

四、LoRA 实践建议

4.1 模块选择策略

4.2 超参数调优指南

4.3 推理部署优化

五、总结

更多推荐文章

相关免费在线工具

大模型高效微调 LoRA 原理详解与训练过程分析

一、LoRA 原理

1.1 问题定义

1.2 LoRA 简介

1.3 为什么要 LoRA

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.4 LoRA 实现

1.5 LoRA 参数初始化

1.6 LoRA 权重系数 $\frac{\alpha}{r}$

1.7 LoRA 的秩 $r$ 如何选择

1.8 LoRA 的微调的参数选取

二、LoRA 训练

2.1 LoRA 训练的梯度计算

2.2 反向传播计算量

2.3 LoRA 在哪里减少了显存占用

三、效率分析

四、LoRA 实践建议

4.1 模块选择策略

4.2 超参数调优指南

4.3 推理部署优化

五、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具