LLM 微调系列：LoRA 技术综述与优化策略

前言

LoRA（Low-Rank Adaptation）是一种通过在模型的密集层中插入低秩矩阵来更新模型参数的技术。低秩矩阵（LoRA 插件）可以独立于模型存储和重用，从而实现跨任务泛化。而且 LoRA 的参数数量显著少于全参数微调，这使得其在内存和计算需求方面具有显著优势。

1. Low-Rank Adaptation (LoRA)

1.1 LoRA 在实际应用中的效率优势

参数效率（Parameter Efficiency）：LoRA 通过仅更新模型参数的一个小子集来实现参数效率，这减少了微调时所需的内存和计算需求，同时没有增加推理延迟。

内存使用减少（Reduced Memory Usage）：LoRA 显著降低了微调大型语言模型（LLMs）时的内存使用量。这包括模型权重存储所需的内存、前向传播期间中间激活占用的内存、反向传播期间存储梯度所需的内存，以及优化器状态所需的内存。

实际效率比较（Empirical Efficiency Comparison）：在特定硬件配置下，使用批量大小为 1 的 LLaMA2-7B 模型进行全参数微调和 LoRA 微调的全面比较。研究表明，全参数微调需要大约 60GB 的内存，超过了单个 NVIDIA RTX4090 GPU 的容量；而 LoRA 微调仅需要大约 23GB 的内存。

内存使用的细分（Breakdown of Memory Usage）：LoRA 减少了优化内存和梯度内存的显著用量，分别减少了大约 25GB 和 14GB。虽然 LoRA 引入了一些额外的'增量参数'，导致激活内存和权重内存略有增加（总计约 2GB），但考虑到整体内存的减少，这种增加是可以忽略不计的。

前向传播加速（Forward Propagation Acceleration）：减少内存使用还带来了前向传播的加速。LoRA 比全参数微调快 1.9 倍。

其他应用案例（Beyond Fine-tuning）：除了微调之外，LoRA 还可以应用于其他学习范式，例如预训练和持续训练。在预训练中，LoRA 可以用于训练高秩网络；在持续训练中，LoRA 可以解决灾难性遗忘问题。

扩展上下文窗口（Extended Context Window）：LoRA 也被用于扩展大型语言模型的上下文窗口大小，例如 LongLoRA 通过结合 LoRA 和移位稀疏注意力，有效地将 LLaMA2-7B 的上下文窗口从 4k 扩展到 100k 个 token。

1.2 LoRA 在 Pre-training 和 Continual training 阶段也非常有用

预训练中的 LoRA（Pre-training with LoRA）：LoRA 不仅可以用于微调，还可以用于预训练阶段来训练高秩网络。例如，ReLoRA 和 MoRA 提出使用低秩更新来训练大型模型，而 LTE（Low-Rank Training with Multiple Experts）提出在多个计算节点上并行训练多个低秩头部，以减少频繁同步的需求。

持续训练中的 LoRA（Continual Training with LoRA）：在持续训练中，LoRA 被用来解决灾难性遗忘问题，即模型在连续学习新任务时可能会遗忘旧任务的知识。InfLoRA 通过在子空间中重新参数化预训练权重，使用一组最小参数来解决这个问题。GSLoRA 使用组稀疏正则化来自动选择特定的 LoRA 组，以减轻灾难性遗忘的影响。I-LoRA 利用双记忆体验回放和 LoRA 参数插值来对抗灾难性遗忘。

扩展上下文窗口（Extending Context Window）：LoRA 也被用于解决大型语言模型的上下文大小限制问题。例如，LongLoRA 通过结合 LoRA 和移位稀疏注意力，有效地扩展了 LLaMA2-7B 模型的上下文窗口，从而能够在更广泛的上下文中进行有效计算。

SinkLoRA：为了解决 LongLoRA 中存在的效率问题，SinkLoRA 引入了 Sink Fixed Attention（SF-Attn），通过循环移位的方式将注意力头的组回归到未移位状态，以实现适当的性能。

其他应用（Other Applications）：LoRA 的灵活性和有效性使其在多种应用中得到使用，包括但不限于自然语言处理任务、代码任务、模型对齐任务和特定领域的任务。

2. 提升下游任务的能力（Downstream Adaptation Improving）

LoRA 技术综述图片

LLM 微调系列：LoRA 技术综述与优化策略