基础模型的低秩适应(LoRA)综述:关键技术与应用全解析
本文综述了低秩适应(LoRA)技术在基础模型中的应用。针对大规模模型微调计算成本高的问题,LoRA 通过冻结预训练权重并引入低秩矩阵分解实现参数高效微调。文章系统分析了 LoRA 的技术基础、秩适应策略、训练改进及前沿发展,涵盖持续学习、联邦学习等场景。同时总结了其在 NLP、CV、语音等领域的实际应用,并探讨了理论理解、可扩展性等未来挑战,为相关研究与实践提供参考。

本文综述了低秩适应(LoRA)技术在基础模型中的应用。针对大规模模型微调计算成本高的问题,LoRA 通过冻结预训练权重并引入低秩矩阵分解实现参数高效微调。文章系统分析了 LoRA 的技术基础、秩适应策略、训练改进及前沿发展,涵盖持续学习、联邦学习等场景。同时总结了其在 NLP、CV、语音等领域的实际应用,并探讨了理论理解、可扩展性等未来挑战,为相关研究与实践提供参考。

基础模型的快速发展,即在多样化、广泛的数据集上训练的大规模神经网络,已经彻底改变了人工智能,推动了自然语言处理、计算机视觉和科学发现等领域的前所未有的进展。然而,这些模型庞大的参数量,往往达到数十亿甚至数万亿,给将其适应于特定下游任务带来了显著挑战。低秩适应(LoRA)作为一种非常有前景的方法,已成为缓解这些挑战的有效手段,提供了一种参数高效的机制,能够以最小的计算开销微调基础模型。本综述首次全面回顾了低秩适应技术,除了对大规模语言模型的研究,还包括了其在基础模型中的应用,涵盖了低秩适应在多个领域的技术基础、前沿进展及应用。最后,本文讨论了理论理解、可扩展性和鲁棒性等方面的关键挑战及未来研究方向。本综述为从事高效基础模型适应研究和实践的学者与从业者提供了宝贵的资源。
关键词:基础模型、大规模语言模型、低秩适应、参数高效微调、多任务学习
基础模型代表了人工智能中的一种范式转变,其中在广泛和多样化的数据集上预训练的大规模神经网络架构,建立了可泛化的表示框架,可以适应广泛的下游应用。这些模型跨越多个领域,包括自然语言处理(如 GPT-3.5、LLaMA)、计算机视觉(如 Swin Transformer、MAE、SAM)、语音处理(如 Wav2vec2、Whisper)、多模态学习(如 Stable Diffusion、DALL·E 2)和科学应用(如 AlphaFold、ChemBERTa、ESM-2)。
基础模型的特点是其前所未有的规模,参数数量达到数十亿甚至数万亿,并且表现出涌现性质——即在没有明确训练的情况下自发产生的能力。这些架构已成为现代人工智能系统的基础构件,推动了多个领域的突破性进展。尽管这些模型展现了广泛的能力,但通过微调进行任务特定优化仍然是提升模型泛化能力、促进算法公平性、实现定制化以及符合伦理和社会标准的必要手段。然而,它们的规模带来了显著的计算挑战,特别是在训练和微调所需的计算资源方面。
尽管传统的微调方法(涉及对全部参数进行更新)在各种任务中已证明有效,但其计算需求通常使得在基础模型中应用变得不切实际。因此,参数高效微调(PEFT)方法应运而生,作为应对这些计算挑战的解决方案。这些方法通过最小化可训练参数的数量,使得模型适应能够显著降低计算需求,而不会影响任务性能。在这些方法中,低秩适应(LoRA)及其变种因其简便性、实证效果以及在各种模型架构和领域中的广泛适用性而受到广泛关注。
LoRA 基于两个关键见解:在微调过程中,权重更新通常位于低维子空间中,并且任务特定的适应可以通过低秩矩阵有效捕捉。通过在冻结原始模型参数的同时优化这些低秩矩阵,LoRA 实现了高效的适应,并能够在不增加推理延迟的情况下组合多个任务特定的适应。
本综述提供了迄今为止,超越大规模语言模型(LLMs)领域,针对 LoRA 技术的首个全面回顾,扩展分析至基础模型的更广泛领域。我们的主要贡献包括:
本综述通过组织现有的 LoRA 研究,识别了关键挑战和未来研究方向,为该领域的研究人员和从业者提供了宝贵的资源。
LoRA 是参数高效微调(PEFT)领域的重要进展。尽管最初是为大规模语言模型(LLMs)开发的,但后续研究已证明它在各种基础模型中都表现出色。LoRA 的数学公式核心思想是在微调过程中将更新矩阵 $\Delta W$ 限制为低秩,这一过程通过矩阵分解实现:
$$ \Delta W = BA $$
其中 $W_0 \in \mathbb{R}^{m \times n}$ 是预训练权重,$A \in \mathbb{R}^{r \times n}$ 和 $B \in \mathbb{R}^{m \times r}$ 是可训练的低秩矩阵,且 $r \ll \min(m, n)$。
LoRA 采用特定的初始化策略以确保训练的稳定性和高效性。矩阵 A 通常使用从随机高斯分布中抽取的值进行初始化,而矩阵 B 则初始化为零,这确保在训练开始时,$\Delta W = BA$ 实际上是一个零矩阵。这种初始化保证了模型在训练初期不会偏离预训练状态太远。
在 LoRA 中,微调过程遵循以下关键原则:
$$ h = W_0x + \frac{\alpha}{r}BAx $$
其中 $\alpha/r$ 是一个缩放因子,用于控制低秩更新的幅度。在使用 Adam 优化时,调节缩放因子 $\alpha$ 大致相当于调整学习率,前提是初始化时进行适当的缩放。在实际操作中,$\alpha$ 的值可以根据秩 $r$ 设置,从而消除广泛的超参数调优需求。
LoRA 在应用于大规模基础模型时,相比全量微调提供了几个关键优势:
在本节中,我们将从四个关键维度探讨 LoRA 的基本技术方面:参数效率提升、秩适应策略、训练过程改进和理论基础。这些组件构成了 LoRA 有效性的技术基础。
尽管通过 LoRA 及其投影矩阵 A(project-down)和 B(project-up)实现了参数效率的提升,但该方法仍然需要大量的可训练参数。例如,将 LoRA 应用于 LLaMA-2-70B 模型时,需要更新超过 1600 万个参数,这一数字超过了一些 BERT 架构的总参数数量。当前的研究通过四种主要方法来应对这一挑战:参数分解、剪枝、冻结与共享以及量化。
秩是 LoRA 中的一个关键参数,直接影响模型的适应性和可训练参数的数量。原始的 LoRA 方法在所有层中使用固定的低秩,这对于不同的下游任务和模型架构可能并非最优。为了解决这些局限性,近期的研究提出了多种优化 LoRA 中秩分配的方法,这些方法可以大致分为两个主要方面:秩细化和秩增强。
尽管 LoRA 在参数高效微调方面已经取得了显著成功,但优化其训练动态仍然是最大化适应性能的关键。在本节中,我们将讨论旨在改进训练过程的最新进展,特别是学习率、丢弃策略和缩放因子。
在上述技术基础的基础上,本节探讨了扩展 LoRA 能力的新方向的前沿发展。这些前沿发展利用并结合 LoRA 的基本原理,以实现新的功能、处理更复杂的任务,并解决模型适应中的挑战。
尽管原始的 LoRA 方法显著提高了微调的效率,并且展示了与全量微调相当的性能,但在灵活性、泛化能力和同时处理多个多样化任务方面存在局限性。为了解决这些局限性,研究人员开发了先进的 LoRA 架构,以进一步提高性能、参数效率和泛化能力。例如,AdaLoRA 通过奇异值分解动态分配秩,QLoRA 通过量化进一步压缩内存占用。
LoRA 的参数高效特性使得在新任务上逐步更新模型成为可能,同时可以有效缓解灾难性遗忘问题。使用 LoRA 进行持续学习(CL)有几个关键优势:(1)与全量微调相比,计算成本降低;(2)自然地将任务特定知识隔离;(3)灵活地组合任务特定的适应。基于 LoRA 的现有持续学习方法大致可以分为三种方法:正则化方法、任务算术方法和集成方法。
LoRA 使得从基础模型中有针对性地移除特定知识成为可能,而无需进行大规模的重新训练。以下是利用 LoRA 实现遗忘的三种主要方法分类:
在数据隐私问题日益严重的时代,联邦学习(Federated Learning, FL)提供了一种有前景的方式,可以在保护个人数据隐私的同时,利用集体知识。LoRA 与联邦基础模型(Federated Foundation Models, FFM)的结合,使得基础模型在资源受限的设备上变得更加可访问,尤其是在边缘计算场景下,有望彻底改变物联网(IoT)和移动应用领域。
处理长序列的能力对于许多由基础模型处理的任务至关重要。然而,标准的基础模型通常受到最大上下文长度的限制,这是由于自注意力机制相对于序列长度的二次计算复杂度。为了应对这一局限性,已经提出了几种基于 LoRA 的方法,用于扩展基础模型的上下文窗口,例如通过稀疏注意力机制结合 LoRA 适配器。
高效地提供多个 LoRA 模型的服务同样至关重要。近期的进展包括改进的 GPU 内存管理,高效的批处理技术,用于缓解冷启动延迟的 CPU 辅助策略,以及针对资源受限的个人设备的适应性方法。
LoRA 在微调基础模型方面的有效性和高效性,促使其在多个领域得到广泛应用,包括语言处理、计算机视觉、语音识别、多模态、代码工程、科学发现、推荐系统、图学习、时空预测等。
在本次综述中,我们对 LoRA 进行了系统分析,探讨了其理论基础、技术进展以及在适应基础模型方面的多种应用。LoRA 在多个领域的广泛应用——从自然语言处理和计算机视觉到语音识别和科学计算——突显了其多功能性和有效性。LoRA 能够在显著减少计算和存储需求的同时保持模型性能,这使得它在资源受限的环境和特定领域的适配中尤为宝贵。
尽管取得了这些成就,但仍然存在若干关键挑战。LoRA 有效性的理论框架需要进一步发展,特别是在理解低秩适配与模型能力之间的相互作用方面。此外,关于可扩展性、鲁棒性和在生产环境中安全部署的问题,仍然是当前研究的重要方向。未来的工作应致力于探索更智能的秩分配机制、跨模态的 LoRA 泛化能力以及自动化超参数搜索工具,以推动该技术向更成熟的方向发展。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online