LoRA 与完全微调的差异：基于 MIT 光谱分析研究

引言

微调（Fine-tuning）是将经过预训练的大语言模型应用于下游任务的关键范式。最近，低秩自适应 (LoRA) 等方法已被证明可以在各种任务上达到完全微调模型的性能，同时可训练参数的数量却大大减少。

这就引出了一个核心问题：它们学到的解决方案真的等效吗？

来自 MIT 的研究者在论文《LORA VS FULL FINE-TUNING: AN ILLUSION OF EQUIVALENCE》中进行了深入探讨。本文旨在了解两种微调大型语言模型方法之间的差异：完全微调和低秩自适应 (LoRA)。这两种方法都用于将预训练模型适应特定的下游任务，但它们却存在显著不同。

图片：LoRA 与完全微调对比

论文地址：https://arxiv.org/pdf/2410.21228v1

作者通过分析预训练模型权重矩阵的光谱特性来研究不同的微调方法如何改变模型。研究发现，完全微调与 LoRA 产生的权重矩阵奇异值分解结构有显著不同，并且经过微调后的模型在面对超出适应任务分布的测试时也显示出不同的泛化行为。

特别是，LoRA 训练的权重矩阵中出现了称为「侵入维度（intruder dimensions）」的新的高秩奇异向量，而在完全微调中则不会出现这种情况。这些结果表明，即使在微调分布上表现相同，但使用 LoRA 和完全微调更新的模型访问参数空间的不同部分。

技术背景：奇异值分解 (SVD)

为了理解微调对预训练权重的变化，本文采用神经网络参数的奇异值分解 (SVD) 进行分析。SVD 可以将一个矩阵分解为三个矩阵的乘积，揭示其内在的结构特征。通过测量用 LoRA 微调过的权重矩阵中的奇异向量或完全微调过的权重矩阵中奇异向量映射到预训练权重中的奇异向量的程度，可以使用余弦相似度来量化这种关系。

这些关系如图 1 和图 3 所示，颜色表示预训练和微调奇异向量之间的余弦相似度。在图 2 (b) 中观察到，LoRA 和完全微调的奇异向量与预训练奇异向量的相似度非常不同：与完全微调相比，使用 LoRA 微调的模型的奇异向量与预训练奇异向量的平均余弦相似度似乎要低得多。

图片：奇异向量相似度对比