跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

Meta 与卡内基梅隆大学提出 GaLore:全参数微调内存减少 63.3%

综述由AI生成Meta 与卡内基梅隆大学提出的 GaLore 是一种高效大模型微调方法,利用梯度的低秩特性进行全参数学习。该方法通过梯度投影将优化器状态内存占用降低 63.3%,解决了消费级 GPU 难以训练大模型的问题。实验表明 GaLore 在 LLaMA 7B 预训练及 GLUE 基准测试中优于 LoRA,且支持动态子空间切换与 8 位优化器结合,为大模型训练提供了新的内存优化方案。

ApiHolic发布于 2025/2/6更新于 2026/6/428 浏览
Meta 与卡内基梅隆大学提出 GaLore:全参数微调内存减少 63.3%

引言

大模型训练通常会遇到内存资源的限制。目前常用的内存减少方法低秩适应(LoRA),通过引入低秩(low-rank)适配器来更新模型的权重,而不是直接更新整个权重矩阵。然而,这种方法在预训练和微调阶段通常表现不佳,为此,本文作者提出了梯度低秩映射(Gradient Low-Rank Projection,「GaLore」),这是一种允许**「全参数」**学习的训练策略,并且比 LoRA 等常见的低秩适应方法更节省内存,相比 BF16 内存减少了 63.3%。

参考论文:https://arxiv.org/pdf/2403.03507v1.pdf

背景介绍

大型语言模型(LLMs)在对话式人工智能和语言翻译等领域展现出了令人印象深刻的性能。训练这些大模型(LLMs)不仅需要大量的计算资源,而且对内存的需求也非常大。这里的内存需求不仅仅是指数十亿个可训练的参数,还包括它们的梯度和优化器状态,比如 Adam 中的梯度动量和方差,这些往往比参数本身占用的存储空间还要大。

举个例子,如果我们从头开始训练一个 LLaMA 7B 模型,即使是用最小的批量大小,也需要至少 58GB 的内存,其中 14GB 用于存储可训练的参数,42GB 用于存储 Adam 优化器的状态和权重梯度,还有 2GB 用于存储激活值。这样的内存需求使得在像 NVIDIA RTX 4090 这样只有 24GB 内存的消费级 GPU 上进行训练变得不太现实。

除了工程和系统方面的努力,比如梯度检查点和内存卸载等技术来实现更快更高效的分布式训练,研究人员还在寻求开发各种优化技术,以减少预训练和微调过程中的内存使用。

高效参数微调(Parameter-efficient fine-tuning,PEFT)技术让我们能够高效的将预训练语言模型(PLMs)适配至不同的下游任务中,从而无需对模型的所有参数进行调整。其中,当前较火的低秩适应(LoRA)技术将权重矩阵重新参数化为 $W + BA$,这里 $W$ 是一个固定的全秩矩阵,而 $A$ 和 $B$ 是待学习的附加低秩适配器。因为秩 $r ext{ << } d$,所以 A 和 B 包含的可训练参数数量较少。

当前 LoRA 已经被广泛使用,其中 $W_0$ 是固定的预训练权重。它的变体 ReLoRA 也用于预训练,通过定期使用之前学到的低秩适配器来更新。然而对于微调来说,有研究表明 LoRA 并没有显示出与全秩微调相当的性能。对于从头开始的预训练,它被证明需要一个全秩模型训练作为热身,然后才能在低秩子空间中进行优化。这其中可能有两个原因:(1)最优的权重矩阵可能不是低秩的;(2)重新参数化改变了梯度训练的动态。

为了解决上述挑战,本文作者提出了 Gradient Low-Rank Projection(GaLore)训练策略,它允许全参数学习,同时比 LoRA 等常见低秩适应方法更节省内存。

GaLore 核心原理

GaLore 的核心思想是在训练过程中利用梯度的低秩特性,而不是直接对权重矩阵进行低秩近似。具体来说:

在 LLMs 的训练过程中,权重矩阵 W 的梯度 G($\nabla_W$)通常具有低秩结构。这意味着梯度矩阵可以通过较小的子空间来近似表示,从而减少内存占用。GaLore 通过计算两个投影矩阵 P 和 Q,将梯度矩阵 G 投影到一个低秩形式。这样的投影操作可以显著降低优化器状态的内存成本,因为 P 和 Q 的低频率更新(例如,每 200 次迭代)会产生最小的额外计算成本。

数学上,GaLore 将原始梯度 $G \in \mathbb{R}^{d \times k}$ 投影为低秩梯度 $G_{proj} = P^T G Q$,其中 $P \in \mathbb{R}^{d \times r}$ 和 $Q \in \mathbb{R}^{k \times r}$ 是投影矩阵,$r$ 是目标秩。由于 $r \ll d, k$,存储 $G_{proj}$ 所需的内存远小于原始梯度。

在训练过程中 GaLore 可以动态的切换低秩子空间,这意味着模型可以在不同的子空间中学习,而不是局限于单一的低秩空间。这种动态切换通过定期更新投影矩阵 P 和 Q 来实现,以适应梯度的变化。此外,GaLore 在内存使用上进行了优化,例如,它只使用一个投影矩阵 P 或 Q,而不是同时使用两个,这进一步减少了内存需求。

不仅如此 GaLore 还可以与现有技术结合,例如:「与 8 位优化器的结合」:GaLore 可以与 8 位优化器(如 8 位 Adam)结合使用,这些优化器已经在内存使用上进行了优化。结合使用 GaLore 和 8 位优化器可以在保持性能的同时,进一步降低内存占用。「逐层权重更新」:GaLore 还与逐层权重更新技术结合,这种技术在反向传播期间执行权重更新,从而减少了存储整个权重梯度的需要。

「GaLore 引入了少量额外的超参数」:除了 Adam 的原始超参数外,GaLore 引入了秩、子空间切换频率和缩放因子α。这些超参数有助于调整 GaLore 的行为,以适应不同的训练需求。其中在 Adam 引入 GaLore 如下所示:

  1. 初始化:设置初始投影矩阵 P 和 Q。
  2. 前向传播:计算损失函数。
  3. 反向传播:计算原始梯度 G。
  • 投影:计算 $G_{proj} = P^T G Q$。
  • 优化器更新:使用 $G_{proj}$ 更新优化器状态。
  • 权重更新:根据优化器状态更新权重 W。
  • 投影更新:每隔 N 步更新 P 和 Q。
  • 实验结果分析

    实验展示了在预训练 LLaMA 7B 模型时,不同方法的内存消耗。与 BF16 Adam 基线和 8 位 Adam 相比,8 位 GaLore 分别减少了 37.92G (63.3%) 和 24.5G (52.3%) 总内存。这一数据表明,GaLore 在显存受限的场景下具有极大的优势,使得在消费级显卡上训练更大规模的模型成为可能。

    在 GLUE 基准测试中,GaLore 在微调预训练的 RoBERTa 模型时,与 LoRA 相比,取得了更好的性能。这证明了虽然 GaLore 限制了梯度的存储维度,但通过动态子空间切换,它并未牺牲模型的收敛能力和最终效果。

    在不同模型大小下,使用不同方法时的内存使用情况进一步证实了 GaLore 在内存效率方面的优势。随着模型参数量增加,传统全量微调的内存开销呈线性甚至超线性增长,而 GaLore 保持了相对稳定的内存占用比例。

    技术实现细节

    在实际代码实现中,GaLore 主要涉及以下几个关键步骤:

    1. 梯度截断与投影:在反向传播结束后,立即对梯度进行低秩投影。这需要自定义的 Hook 机制来拦截 PyTorch 的梯度计算过程。
    2. 投影矩阵维护:投影矩阵 P 和 Q 不需要像权重那样频繁更新。通常采用随机初始化或基于 SVD 的初始化,并每隔一定步数(如 200 步)进行一次更新,以捕捉最新的梯度方向。
    3. 优化器状态压缩:由于梯度被投影,优化器的一阶和二阶矩估计(momentum and variance)也可以相应地压缩,这是内存节省的主要来源。
    4. 权重重建:在更新权重时,需要将低秩更新映射回全参数空间,但这部分计算开销通常较小。

    应用场景与展望

    GaLore 的出现为大模型的高效训练提供了新的思路。对于个人开发者或小型团队而言,这意味着他们不再需要依赖昂贵的多卡集群即可进行大模型的微调实验。此外,GaLore 的通用性使其可以应用于多种架构的模型,不仅限于 Transformer。

    未来,随着硬件算力的进一步提升,GaLore 可能会与混合精度训练、量化技术等结合,形成更加完善的大模型训练解决方案。同时,针对特定任务的自适应秩选择也是一个值得研究的方向,即根据不同层的梯度特性自动调整投影秩,以平衡内存与性能。

    总结

    GaLore 通过利用梯度的低秩特性,成功实现了全参数微调下的内存大幅缩减。相比传统的 LoRA 方法,它在保持模型性能的同时,显著降低了对硬件的要求。这对于推动大模型技术的普及和应用具有重要的意义。

    目录

    1. 引言
    2. 背景介绍
    3. GaLore 核心原理
    4. 实验结果分析
    5. 技术实现细节
    6. 应用场景与展望
    7. 总结
    • 💰 8折买阿里云服务器限时8折了解详情
    • Magick API 一键接入全球大模型注册送1000万token查看
    • 🤖 一键搭建Deepseek满血版了解详情
    • 一键打造专属AI 智能体了解详情
    极客日志微信公众号二维码

    微信扫一扫,关注极客日志

    微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

    更多推荐文章

    查看全部
    • OpenClaw 开源多模态大模型框架:具身智能与机器人操作
    • 微信 H5 缓存控制:后端重定向与前端强制刷新
    • Spring MVC 响应处理:页面、数据与状态配置
    • 滑动窗口算法详解:水果成篮问题
    • local-dream 项目实现安卓端 Stable Diffusion 高效运行与骁龙 NPU 加速
    • AI产品经理核心知识:100个专业术语详解
    • DankDroneDownloader:大疆无人机固件自由下载终极指南
    • WebRTC + Java 信令服务器 + Vue 实时视频聊天实战
    • AI 编程新范式:LLM、Agent、MCP、Skill 协作机制解析
    • Z-Image-ComfyUI 文生图模型入门与部署
    • .NET WebApi 项目必要配置项详解
    • PHP 学习笔记:简单网上调查站点
    • 零配置运行 GPT-OSS 20B:开箱即用 WebUI 部署方案
    • Llama-2-7b 昇腾 NPU 测评总结:核心性能数据与硬件选型参考
    • 从 vw/vh 到 clamp(),前端响应式设计的痛点与进化
    • 前端地图开发基础:服务类型、坐标系与 SDK 简介
    • 网络安全基础与黑客技术入门知识详解
    • MogFace 人脸检测部署:合影人数统计零代码实战
    • 大模型提示工程实战:15 个核心技巧与策略
    • Linux 动静态库:原理与制作

    相关免费在线工具

    • 加密/解密文本

      使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

    • RSA密钥对生成器

      生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

    • Mermaid 预览与可视化编辑

      基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

    • 随机西班牙地址生成器

      随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

    • Gemini 图片去水印

      基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

    • curl 转代码

      解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online