Meta 与卡内基梅隆大学提出 GaLore：全参数微调内存减少 63.3%

综述由AI生成Meta 与卡内基梅隆大学提出的 GaLore 是一种高效大模型微调方法，利用梯度的低秩特性进行全参数学习。该方法通过梯度投影将优化器状态内存占用降低 63.3%，解决了消费级 GPU 难以训练大模型的问题。实验表明 GaLore 在 LLaMA 7B 预训练及 GLUE 基准测试中优于 LoRA，且支持动态子空间切换与 8 位优化器结合，为大模型训练提供了新的内存优化方案。

ApiHolic发布于 2025/2/6更新于 2026/6/428 浏览

引言

大模型训练通常会遇到内存资源的限制。目前常用的内存减少方法低秩适应（LoRA），通过引入低秩（low-rank）适配器来更新模型的权重，而不是直接更新整个权重矩阵。然而，这种方法在预训练和微调阶段通常表现不佳，为此，本文作者提出了梯度低秩映射（Gradient Low-Rank Projection，「GaLore」），这是一种允许**「全参数」**学习的训练策略，并且比 LoRA 等常见的低秩适应方法更节省内存，相比 BF16 内存减少了 63.3%。

参考论文：https://arxiv.org/pdf/2403.03507v1.pdf

背景介绍

大型语言模型（LLMs）在对话式人工智能和语言翻译等领域展现出了令人印象深刻的性能。训练这些大模型（LLMs）不仅需要大量的计算资源，而且对内存的需求也非常大。这里的内存需求不仅仅是指数十亿个可训练的参数，还包括它们的梯度和优化器状态，比如 Adam 中的梯度动量和方差，这些往往比参数本身占用的存储空间还要大。

举个例子，如果我们从头开始训练一个 LLaMA 7B 模型，即使是用最小的批量大小，也需要至少 58GB 的内存，其中 14GB 用于存储可训练的参数，42GB 用于存储 Adam 优化器的状态和权重梯度，还有 2GB 用于存储激活值。这样的内存需求使得在像 NVIDIA RTX 4090 这样只有 24GB 内存的消费级 GPU 上进行训练变得不太现实。

除了工程和系统方面的努力，比如梯度检查点和内存卸载等技术来实现更快更高效的分布式训练，研究人员还在寻求开发各种优化技术，以减少预训练和微调过程中的内存使用。

高效参数微调（Parameter-efficient fine-tuning，PEFT）技术让我们能够高效的将预训练语言模型（PLMs）适配至不同的下游任务中，从而无需对模型的所有参数进行调整。其中，当前较火的低秩适应（LoRA）技术将权重矩阵重新参数化为 $W + BA$，这里 $W$ 是一个固定的全秩矩阵，而 $A$ 和 $B$ 是待学习的附加低秩适配器。因为秩 $r ext{ << } d$，所以 A 和 B 包含的可训练参数数量较少。

当前 LoRA 已经被广泛使用，其中 $W_0$ 是固定的预训练权重。它的变体 ReLoRA 也用于预训练，通过定期使用之前学到的低秩适配器来更新。然而对于微调来说，有研究表明 LoRA 并没有显示出与全秩微调相当的性能。对于从头开始的预训练，它被证明需要一个全秩模型训练作为热身，然后才能在低秩子空间中进行优化。这其中可能有两个原因：（1）最优的权重矩阵可能不是低秩的；（2）重新参数化改变了梯度训练的动态。

为了解决上述挑战，本文作者提出了 Gradient Low-Rank Projection（GaLore）训练策略，它允许全参数学习，同时比 LoRA 等常见低秩适应方法更节省内存。

GaLore 核心原理

GaLore 的核心思想是在训练过程中利用梯度的低秩特性，而不是直接对权重矩阵进行低秩近似。具体来说：

在 LLMs 的训练过程中，权重矩阵 W 的梯度 G（$\nabla_W$）通常具有低秩结构。这意味着梯度矩阵可以通过较小的子空间来近似表示，从而减少内存占用。GaLore 通过计算两个投影矩阵 P 和 Q，将梯度矩阵 G 投影到一个低秩形式。这样的投影操作可以显著降低优化器状态的内存成本，因为 P 和 Q 的低频率更新（例如，每 200 次迭代）会产生最小的额外计算成本。

数学上，GaLore 将原始梯度 $G \in \mathbb{R}^{d \times k}$ 投影为低秩梯度 $G_{proj} = P^T G Q$，其中 $P \in \mathbb{R}^{d \times r}$ 和 $Q \in \mathbb{R}^{k \times r}$ 是投影矩阵，$r$ 是目标秩。由于 $r \ll d, k$，存储 $G_{proj}$ 所需的内存远小于原始梯度。

在训练过程中 GaLore 可以动态的切换低秩子空间，这意味着模型可以在不同的子空间中学习，而不是局限于单一的低秩空间。这种动态切换通过定期更新投影矩阵 P 和 Q 来实现，以适应梯度的变化。此外，GaLore 在内存使用上进行了优化，例如，它只使用一个投影矩阵 P 或 Q，而不是同时使用两个，这进一步减少了内存需求。

不仅如此 GaLore 还可以与现有技术结合，例如：「与 8 位优化器的结合」：GaLore 可以与 8 位优化器（如 8 位 Adam）结合使用，这些优化器已经在内存使用上进行了优化。结合使用 GaLore 和 8 位优化器可以在保持性能的同时，进一步降低内存占用。「逐层权重更新」：GaLore 还与逐层权重更新技术结合，这种技术在反向传播期间执行权重更新，从而减少了存储整个权重梯度的需要。

「GaLore 引入了少量额外的超参数」：除了 Adam 的原始超参数外，GaLore 引入了秩、子空间切换频率和缩放因子α。这些超参数有助于调整 GaLore 的行为，以适应不同的训练需求。其中在 Adam 引入 GaLore 如下所示：

初始化：设置初始投影矩阵 P 和 Q。
前向传播：计算损失函数。
反向传播：计算原始梯度 G。

Meta 与卡内基梅隆大学提出 GaLore：全参数微调内存减少 63.3%

ApiHolic发布于 2025/2/6更新于 2026/6/428 浏览

引言

参考论文：https://arxiv.org/pdf/2403.03507v1.pdf

背景介绍

为了解决上述挑战，本文作者提出了 Gradient Low-Rank Projection（GaLore）训练策略，它允许全参数学习，同时比 LoRA 等常见低秩适应方法更节省内存。

GaLore 核心原理

GaLore 的核心思想是在训练过程中利用梯度的低秩特性，而不是直接对权重矩阵进行低秩近似。具体来说：

初始化：设置初始投影矩阵 P 和 Q。
前向传播：计算损失函数。
反向传播：计算原始梯度 G。

Meta 与卡内基梅隆大学提出 GaLore：全参数微调内存减少 63.3%

引言

背景介绍

GaLore 核心原理

Meta 与卡内基梅隆大学提出 GaLore：全参数微调内存减少 63.3%

引言

背景介绍

GaLore 核心原理

更多推荐文章

相关免费在线工具

实验结果分析

技术实现细节

应用场景与展望

总结

更多推荐文章

相关免费在线工具

Meta 与卡内基梅隆大学提出 GaLore：全参数微调内存减少 63.3%

引言

背景介绍

GaLore 核心原理

Meta 与卡内基梅隆大学提出 GaLore：全参数微调内存减少 63.3%

引言

背景介绍

GaLore 核心原理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

实验结果分析

技术实现细节

应用场景与展望

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具