LLM 混合低秩微调方法 MiLoRA

MiLoRA 是一种针对大语言模型的高效参数微调方法，结合低秩自适应（LoRA）与混合专家（MoE）机制。该方法引入提示感知路由策略，在生成首个令牌前计算一次路由结果并复用，显著降低多租户场景下的延迟。实验表明，MiLoRA 在可调参数预算下优于现有 PEFT 基线，并在常识推理、数学推理等任务上表现良好，同时支持不同深度路由器学习激活函数以提升性能。

星星泡饭发布于 2024/11/29更新于 2026/4/231 浏览

摘要

低秩自适应（LoRA）及其混合专家（MOE）变体是高效的参数高效微调（PEFT）方法。然而，由于在 Transformer 层的多个线性模块中添加了 LoRA 模块和 MOE 路由器，它们在多租户设置中引入了显著的延迟。

为了解决这个问题，我们提出了低秩自适应混合（MiLoRA），这是一种新颖有效的 LoRA 变体。MiLoRA 与之前的 MOE 风格的 LoRA 方法不同，它将每个 LoRA 模块视为专家，并采用提示感知路由机制。此机制在生成第一个新令牌之前计算一次专家路由结果，并将这些结果用于后续令牌，从而减少延迟。

对常识推理任务、数学推理任务和广泛使用的 LLM 评估基准的广泛实验和分析表明，MiLoRA 在可调参数预算方面始终优于强大的 PEFT 基线。此外，与之前基于 LoRA 的方法相比，MiLoRA 显著降低了多租户设置中的延迟。

文章简介

研究问题：在大语言模型微调过程中，如何高效地使用低秩适应（LoRA）方法来提升模型性能和效率？
主要贡献：论文提出了一种名为 MiLoRA 的新方法，通过引入提示感知的路由机制，实现了在 Transformer 层级上激活不同的 LoRA 模块，从而在多任务学习中显著提升了模型性能和推理效率。

重点思路

论文方案

提示感知 LoRA 路由器：该机制在 Transformer 层之前使用一个路由器网络，根据输入提示的隐藏状态来决定激活哪个 LoRA 模块。
激活函数学习：在微调过程中，为不同深度的 LoRA 路由器学习不同的激活函数，以提升框架的下游性能。
多任务设置：在多任务学习环境中进行实验，比较了 MiLoRA 框架与当前最先进的 PEFT 基线方法的性能。
实验设置：使用了包括常识推理、数学推理和 LLM 评估基准在内的多种挑战性任务进行实验，并详细描述了数据集、评估指标和实验设置。

分析总结

性能提升：在多个挑战性任务中，MiLoRA 方法能够持续优于强大的 PEFT 基线方法，特别是在与可调参数预算相当的情况下。
效率提升：在多租户设置下，MiLoRA 方法的延迟显著低于之前的基于 LoRA 的方法，同时保持了相当的参数可调性。
广泛适用性：通过在不同的预训练模型（如 LlaMA-2 7B、LlaMA-2 13B 和 Gemma 2B）上进行实验，证明了 MiLoRA 方法的广泛适用性。
激活函数的影响：实验结果表明，为不同深度的 LoRA 路由器学习不同的激活函数可以显著提升模型的下游性能。

总结

论文的核心就是在 Transformer 层级上引入门控机制激活不同的 LoRA 模块。

LLM 混合低秩微调方法 MiLoRA

摘要

文章简介

重点思路

相关工作

论文方案

分析总结

总结

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

LLM 混合低秩微调方法 MiLoRA

摘要

文章简介

重点思路

相关工作

论文方案

分析总结

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具