跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

北理工 Fira:低秩约束下实现 LLM 全秩训练的新探索

低秩训练虽能降低大语言模型显存占用,但受限于子空间导致性能次优。北理工提出的 Fira 框架利用自适应优化器的缩放特性,在维持低秩约束的同时实现全秩梯度更新,并引入范数增长限制器平滑训练过程。实验表明,Fira 在 LLaMA 1B 和 7B 架构上均优于 LoRA 和 GaLore,优化器状态内存减少超 60%,且能以更低秩达到甚至超越满秩训练性能。

remedios发布于 2024/10/21更新于 2026/6/1520 浏览
北理工 Fira:低秩约束下实现 LLM 全秩训练的新探索

低阶约束下实现 LLM 的全秩训练

在大型语言模型(LLM)的训练中,内存消耗一直是制约大规模部署的关键瓶颈。低秩适应(Low-Rank Adaptation, LoRA)等方法通过冻结预训练权重并引入可训练的低秩矩阵来节省显存,但这类方法本质上将训练限制在了低秩子空间内,不可避免地导致了次优性能。GaLore 等梯度投影方法虽然试图缓解这一问题,但依然无法摆脱丢弃子空间外信息的局限。

针对这一痛点,北京理工大学团队提出了一种名为 Fira 的即插即用框架。Fira 的核心目标是在保持低秩约束以提升内存效率的同时,实现全秩训练,从而避免性能损失。

核心洞察与方案

Fira 的设计基于两个关键观察和对应的解决方案:

1. 自适应优化器的缩放效应

研究人员发现,在从低秩向全秩过渡的过程中,自适应优化器(如 Adam)对梯度范数的缩放影响是相对稳定的。基于此,Fira 提出了一种基于范数的缩放方法。该方法利用低秩优化器的缩放行为作为原始全秩优化器的替代,使得我们可以在优化器内部保留低秩约束,同时利用全秩梯度进行更新。这相当于用一种'低成本'的方式模拟了全秩优化的效果。

2. 梯度范数增长限制器

在实际优化过程中,梯度的突然上升往往会导致损失函数的尖峰,影响训练稳定性。为此,Fira 引入了一个范数增长限制器。它通过调节梯度范数的相对增量来平滑梯度更新,有效避免了训练过程中的损失震荡。

实验效果与对比

在广泛的预训练和微调实验中,Fira 展现了显著优势。与主流的 LoRA 和 GaLore 相比,Fira 不仅实现了更优的性能,还保持了极高的内存效率。

  • 内存效率:在 LLaMA 1B 架构上,Fira 将优化器状态的内存使用量减少了 61.1%。
  • 性能表现:对于 LLaMA 7B 架构的预训练,Fira 使用的秩比 GaLore 小 8 倍,但性能却远远优于 GaLore。即使在极低的秩设置(如 4 或 16)下,Fira 仍能实现与满秩训练相当甚至更好的结果。

总结

Fira 框架通过巧妙的范数缩放策略和梯度平滑机制,成功打破了低秩训练与全秩性能之间的权衡。它证明了在不牺牲内存效率的前提下,完全有可能实现接近全秩的训练效果。这对于资源受限场景下的 LLM 开发具有重要的参考价值。

Fira 方法原理图

Fira 实验数据对比

Fira 梯度分布分析

Fira 内存占用对比

Fira 最终性能评估

目录

  1. 低阶约束下实现 LLM 的全秩训练
  2. 核心洞察与方案
  3. 1. 自适应优化器的缩放效应
  4. 2. 梯度范数增长限制器
  5. 实验效果与对比
  6. 总结
  • 免费图片AI生成工具免费生成了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 免费图片视频在线生成30秒,将你的创意变成现实开始设计
  • X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
  • 100+免费在线小游戏爽一把
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • RAG 技术深度解析
  • Linux 服务器整体架构与分层认知
  • 大语言模型在线连续知识学习(OCKL)框架与方法研究
  • 开源 ROS 智能割草机器人:技术架构与 DIY 实践
  • VS Code 运行前端代码指南
  • OpenClaw 框架 30+ 真实场景深度解析
  • LTX-2.3:开源音视频生成模型,支持文生视频与本地部署
  • OpenCode 开源 AI 编程助手简介
  • OpenClaw 本地部署指南:WSL2 + Ubuntu + Node.js 22+ 环境搭建
  • 大模型入门:程序员为什么要学习大模型应用开发
  • 科技巨头聚焦的 AI Agent 究竟是什么
  • OpenClaw 树莓派部署:Gateway 仪表盘登录与网络配置排查
  • 北京市印发人工智能行动计划 2025 年打造全球影响力策源地
  • Windows 网络工程师常用命令行工具整理
  • WAAPI:Web 动画开发的核心技术与实践
  • Node.js 完整安装配置指南(含国内镜像配置)
  • Linux 命名管道(FIFO)通信原理与跨进程实现
  • MySQL 下载与安装配置指南
  • 王立威教授解析:从理论视角看大模型的聪明与愚蠢
  • 北京交通大学开源 o1-Coder 代码生成框架及强化微调计划

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online