摘要
低秩自适应(LoRA)及其混合专家(MOE)变体是高效的参数高效微调(PEFT)方法。然而,由于在 Transformer 层的多个线性模块中添加了 LoRA 模块和 MOE 路由器,它们在多租户设置中引入了显著的延迟。
为了解决这个问题,我们提出了低秩自适应混合(MiLoRA),这是一种新颖有效的 LoRA 变体。MiLoRA 与之前的 MOE 风格的 LoRA 方法不同,它将每个 LoRA 模块视为专家,并采用提示感知路由机制。此机制在生成第一个新令牌之前计算一次专家路由结果,并将这些结果用于后续令牌,从而减少延迟。
对常识推理任务、数学推理任务和广泛使用的 LLM 评估基准的广泛实验和分析表明,MiLoRA 在可调参数预算方面始终优于强大的 PEFT 基线。此外,与之前基于 LoRA 的方法相比,MiLoRA 显著降低了多租户设置中的延迟。
文章简介
- 研究问题:在大语言模型微调过程中,如何高效地使用低秩适应(LoRA)方法来提升模型性能和效率?
- 主要贡献:论文提出了一种名为 MiLoRA 的新方法,通过引入提示感知的路由机制,实现了在 Transformer 层级上激活不同的 LoRA 模块,从而在多任务学习中显著提升了模型性能和推理效率。
重点思路
相关工作
- 许多工作致力于改进 LoRA,AdaLoRA 研究了 LoRA 模块的参数分配,VERA 研究是否可以冻结随机初始化的 LoRA 矩阵并仅学习一组缩放向量。
- 最近,一系列工作在研究将专家混合(MoE)和 LoRA 相结合,LLaVA-MoLE 有效地将令牌路由到特定领域的 LoRA 专家,MOELoRA 证明使用 MOE 路由器微调 LoRA 模块可以使 LLM 在多任务学习环境中表现良好。
- 尽管在微调方面表现良好,但这些方法会引入较高的额外延迟,并没有减少 LoRA 模块的数量。
论文方案
- 提示感知 LoRA 路由器:该机制在 Transformer 层之前使用一个路由器网络,根据输入提示的隐藏状态来决定激活哪个 LoRA 模块。
- 激活函数学习:在微调过程中,为不同深度的 LoRA 路由器学习不同的激活函数,以提升框架的下游性能。
- 多任务设置:在多任务学习环境中进行实验,比较了 MiLoRA 框架与当前最先进的 PEFT 基线方法的性能。
- 实验设置:使用了包括常识推理、数学推理和 LLM 评估基准在内的多种挑战性任务进行实验,并详细描述了数据集、评估指标和实验设置。
分析总结
- 性能提升:在多个挑战性任务中,MiLoRA 方法能够持续优于强大的 PEFT 基线方法,特别是在与可调参数预算相当的情况下。
- 效率提升:在多租户设置下,MiLoRA 方法的延迟显著低于之前的基于 LoRA 的方法,同时保持了相当的参数可调性。
- 广泛适用性:通过在不同的预训练模型(如 LlaMA-2 7B、LlaMA-2 13B 和 Gemma 2B)上进行实验,证明了 MiLoRA 方法的广泛适用性。
- 激活函数的影响:实验结果表明,为不同深度的 LoRA 路由器学习不同的激活函数可以显著提升模型的下游性能。
总结
论文的核心就是在 Transformer 层级上引入门控机制激活不同的 LoRA 模块。


