论文阅读|ArxiV 2025|大模型微调综述|A Survey on Federated Fine-Tuning of Large Language Models
论文地址:https://arxiv.org/pdf/2503.12016
相关最新研究动态:https://github.com/Chen-Yang-Liu/Awesome-RS-SpatioTemporal-VLMs
文章目录
0.综述结构

1.引言
大型语言模型(LLMs,如GPT-4o、DeepSeek-R1、Qwen3)在下游任务中表现卓越,但需经适配才能落地,且直接训练存在计算开销大、数据稀缺易过拟合的问题(如训练LLaMA2-65B需处理1.4万亿token、2048块A100 GPU耗时21天),因此预训练LLM微调成为主流范式。
当前主流LLM微调分三类:
- 集中式微调:聚合客户端数据至中央服务器,效果好但隐私风险高、受法律限制(如GDPR)图(a);
- 本地微调:客户端本地用私有数据训练,保护隐私但数据规模/多样性不足,MMLU基准性能较联邦微调下降达7% 图(b);
联邦微调:客户端本地训练仅传模型更新,服务器聚合构建全局模型,兼顾隐私与数据多样性,是适配LLM的优质范式 图(c)。

联邦微调(FedLLM)面临四大核心挑战:
- 通信开销:LLM参数规模大(如LLaMA2-7B),每轮训练传参导致延迟与带宽压力;
- 数据异构性:客户端数据非独立同分布(Non-IID),引发模型偏差、收敛慢、性能受损;
- 内存壁垒:边缘设备内存有限(4-12GB),难以支撑LLM微调(如LLaMA2-7B需51.85GB);
- 计算开销:客户端硬件能力不足,本地训练耗时久、能耗高,影响参与度。
研究人员将参数高效微调(PEFT)方法应用于联邦学习,分五类:基于LoRA、提示、适配器、选择性的微调及其他方法,核心是通过小规模任务适配减少可训练参数,降低开销并保性能。
现有综述或局限于传统小模型联邦学习,或聚焦PEFT的集中式场景,缺乏LLM联邦微调的专项分析与基准。本综述首次系统性探讨该领域,剖析其发展、挑战与方法,提供标准化评估基准,填补研究空白。
2. 背景
2.1 大型语言模型
大型语言模型(LLMs)在机器翻译、文本生成、情感分析、问答等自然语言处理任务中表现突出,核心源于其编码复杂语言模式、捕捉长距离上下文依赖的能力,还推动了对话AI、医疗决策支持等实际应用发展。
架构上,现代LLMs由数十至数百层Transformer堆叠而成(如LLaMA2-7B含32层),每层含多头注意力(MHA)和前馈网络(FFN)。第 l l l层计算为:
h i ′ = M H A ( L N ( h i − 1 ) ) + h i − 1 h_{i}'=MHA\left(LN\left(h_{i-1}\right)\right)+h_{i-1} hi′=MHA(LN(hi−1))+hi−1
h i = F F N ( L N ( h i ′ ) ) + h i ′ h_{i}=FFN\left(LN\left(h_{i}'\right)\right)+h_{i}' hi=FFN(LN(hi′))+hi′
( h l − 1 ∈ R n × d h_{l-1} \in \mathbb{R}^{n ×d} hl−1∈Rn×d为输入, n n n为序列长度, d d d为隐藏维度, L N ( ⋅ ) LN(\cdot) LN(⋅)为层归一化)

2.2 大型语言模型的训练
LLM训练分两阶段:
- 预训练:在数十亿至数万亿token的无标签语料(学术论文、网站等)上自回归建模,习得基础语义到跨领域推理能力,构建可迁移表示;
微调:用监督学习在任务特定数据集上适配模型,但传统方法需集中数据,引发隐私安全问题,推动隐私保护型微调发展。

2.3 联邦微调
联邦微调让客户端在本地私有数据上适配LLM,仅传模型更新给服务器,兼顾隐私与数据保护要求,但面临参数规模大、数据异构、内存不足、计算开销高的挑战。
对应解决方案为五类参数高效微调(PEFT)方法:
- 基于LoRA:分解权重更新为低秩矩阵,减参数;
- 基于提示:优化输入提示,冻结模型权重;
- 基于适配器:插入轻量模块,仅更新模块参数;
- 基于选择性:微调任务相关层/参数;
- 其他:含零阶优化、拆分学习、模型压缩等。
3. 挑战
3.1 通信开销
联邦微调需客户端与服务器迭代传输模型参数至收敛,LLM(如LLaMA系列)参数规模为传统模型(如BERT)的10-118倍,导致数据传输量激增;实际中30%边缘设备依赖带宽不足10 Mb/s的2G/3G网络,5G覆盖率仅10%,且“掉队者效应”(训练时长由最慢设备决定)会延缓收敛,降低通信开销是FedLLM落地关键。

3.2 数据异质性
客户端数据在分布、质量、数量上差异显著,会导致模型更新冲突、收敛慢、泛化差;传统FL的正则化、聚合优化等缓解策略在FedLLM中应用不足,且PEFT对数据分布偏移更敏感,数据异质性越高,PEFT与全参数微调(FFT)的性能差距越大。

3.3 内存墙
本地微调需存储模型参数、中间激活值与梯度,边缘设备内存通常仅4-12 GB;微调LLaMA2-7B需51.85 GB GPU内存(BERT的7.68倍),LLaMA2-13B需98.56 GB,硬件内存与LLM需求不匹配形成“内存墙”,限制设备参与,降低数据多样性与模型性能。

3.4 计算开销
LLM微调的前向/反向传播计算密集,批量为16时,TinyLLaMA微调的FLOPs是BERT的8.6倍,LLaMA2-13B是103.07倍;会导致训练时间延长、电池设备能耗过高、硬件性能衰减,需适配设备异质性的计算高效策略。

4. 大语言模型与时序图像的融合

4.1 基于低秩适应(LoRA)的微调
4.1.1 基础原理
LoRA通过低秩矩阵分解减少可训练参数:将预训练权重矩阵 W 0 ∈ R U ˉ × V W_0 \in \mathbb{R}^{\bar{U} \times V} W0∈RUˉ×V分解为 A ∈ R r × V A \in \mathbb{R}^{r \times V} A∈Rr×V(低维投影)与 B ∈ R U × r B \in \mathbb{R}^{U \times r} B∈RU×r(回映射),其中 r ≪ m i n ( U , V ) r \ll min(U,V) r≪min(U,V)为低秩维度。微调时仅更新 A A A和 B B B,原始权重 W 0 W_0 W0冻结,核心计算式为:
h = W 0 X + B A X ( 3 ) h=W_0 X+B A X \quad(3) h=W0X+BAX(3)
式中, W 0 X W_0 X W0X为预训练模型初始预测, B A X BAX BAX为任务特定适配,二者元素-wise相加得最终输出,兼顾效率与泛化。

4.1.2 联邦应用
按秩配置分为三类:
- 同构LoRA:客户端用相同秩(如FedSA-LoRA仅传 A A A矩阵降通信开销);
同构 LoRA 指所有客户端为其 LoRA 模块采用相同低秩维度 r 的场景。这种统一配置简化了客户端间的聚合与模型同步过程。表 2 总结了该类别中的代表性方法及其应对的具体挑战。
- 异构LoRA:客户端按需选秩(如HETLoRA结合秩自剪枝应对数据异质性);
异构 LoRA 允许各客户端根据自身数据特征或资源约束,为其 LoRA 模块采用不同的秩 r。这种异构性既可以体现在客户端间(模型间异构),也可以体现在同一模型的不同层间(层内异构)。通过允许客户端选择最适配自身能力与本地数据的秩,该方法为联邦微调过程引入了更高的灵活性和资源感知能力。表 3 总结了该类别中的代表性方法及其应对的具体挑战。
- 个性化LoRA:适配本地数据(如FDLoRA用双LoRA模块分捕全局/个性化知识)。
个性化 LoRA 允许每个参与者通过个性化低秩适配矩阵微调自身模型,使其能更好地与本地数据特征对齐。该方法在保留客户端特定差异的同时,提升了全局模型在客户端间的泛化能力。表 4 总结了该类别中的代表性方法及其旨在应对的具体挑战。
| 维度 | 同构 LoRA | 异构 LoRA | 个性化 LoRA |
|---|---|---|---|
| 秩(Rank)配置 | 所有客户端使用相同秩(如 r=16) | 客户端自选秩(如 r=8/16/32) | 秩可异,但重点在本地数据适配 |
| 核心目标 | 简化聚合,降低通信开销 | 适配资源/数据异构,提升参与率 | 捕捉本地数据特性,减少全局偏差 |
| 聚合策略 | 直接平均(如 FedSA-LoRA 仅传 A 矩阵) | 堆叠/加权聚合(如 HETLoRA 秩自剪枝) | 全局+本地模块分离(如 FDLoRA 双模块) |
| 解决的挑战 | 通信开销(参数传输量) | 资源异构(内存/算力差异)、数据异质性 | 数据异质性(本地数据分布独特) |
| 典型案例 | FedSA-LoRA(仅传 A 降通信) | HETLoRA(秩自剪枝+稀疏聚合) | FDLoRA(全局 LoRA+本地 LoRA) |
| 适用场景 | 客户端资源相近、数据分布相似(如医院联合调医疗模型) | 边缘设备混合(手机+服务器)、数据差异大(如跨行业联邦) | 数据高度个性化(如个性化推荐、医疗问诊) |
4.2 基于提示的微调
4.2.1 基础原理
将可训练提示嵌入 P ∈ R l p × d P \in \mathbb{R}^{l_p \times d} P∈Rlp×d( l p l_p lp为提示长度, d d d为模型隐藏维度)前置到原始输入 X ∈ R l x × d X \in \mathbb{R}^{l_x \times d} X∈Rlx×d( l x l_x lx为输入长度),拼接后输入冻结参数 θ \theta θ的预训练模型,核心式为:
Z = f ( [ P ; X ] ; θ ) Z=f([P ; X] ; \theta) Z=f([P;X];θ)
式中, [ P ; X ] [P;X] [P;X]为提示与输入的拼接, f ( ⋅ ; θ ) f(\cdot;\theta) f(⋅;θ)为冻结模型函数,仅优化 P P P即可实现任务适配,大幅降低资源开销。

4.2.2 联邦应用
按提示适配范围分为三类:
- 通用提示微调:共享提示(如FedPepTAO用部分提示微调降通信成本);
通用提示微调指所有参与客户端学习并采用同一组共享提示嵌入的方法。在这种设置下,相同的提示会被前置到每个客户端的输入序列中,为模型提供一致的任务特定引导,使全局模型能在多样化数据源上实现泛化。表 5 总结了该类别中的代表性方法及其旨在应对的具体挑战。
- 个性化提示微调:客户端定制提示(如pFedPG生成客户端特定视觉提示);
个性化提示微调允许每个客户端根据本地数据分布和任务需求,定制专属提示嵌入。通过为每个客户端优化独特的提示,模型能更好地捕捉本地数据的特有特征 —— 这一过程直接应对了数据异质性挑战,同时仍可通过全局模型共享通用知识。表 6 总结了该类别中的代表性方法及其针对的具体挑战。
- 多领域提示微调:适配跨域场景(如Fed-DPT结合视觉-文本双提示)。
多领域提示微调将基于提示的方法扩展到联邦客户端跨不同领域或应用场景的场景。在此类场景中,每个客户端配备领域特定提示嵌入,使共享的全局模型能适配多样化的上下文与数据分布条件。该方法提升了模型在异构领域间的泛化能力,同时保持共享全局基础的一致性,在跨行业、多场景的实际部署中极具价值。表 7 总结了该类别中的代表性方法及其应对的具体挑战。
| 维度 | 通用提示微调 | 个性化提示微调 | 多领域提示微调 |
|---|---|---|---|
| 提示数量 | 1套(全客户端共享) | N套(N个客户端N套) | K套(K个领域K套) |
| 解决的核心问题 | 降低通信/聚合成本 | 应对客户端数据异质性 | 应对跨领域任务差异 |
| 适用场景 | 同领域、任务相似 | 同领域、数据差异大 | 跨领域、任务不相关 |
| 服务器聚合难度 | 低(仅聚合1套提示) | 中(聚合N套提示) | 高(聚合K套领域提示) |
4.3 基于适配器(Adapter)的微调
4.3.1 基础原理
插入轻量级适配器模块,通过“下投影→非线性→上投影+残差连接”转换中间表示,仅更新适配器参数( W D P W_{DP} WDP、 W U P W_{UP} WUP),核心公式如下:
- 下投影(高维→低维): h i ′ = h i W D P ( 4 ) h_i'=h_i W_{DP} \quad(4) hi′=hiWDP(4)其中 h i ∈ R n × d h_i \in \mathbb{R}^{n \times d} hi∈Rn×d为激活值, W D P ∈ R d × r W_{DP} \in \mathbb{R}^{d \times r} WDP∈Rd×r( r ≪ d r \ll d r≪d为瓶颈维度);
- 非线性激活: h i ′ ′ = σ ( h i ′ ) ( 5 ) h_i''=\sigma\left(h_i'\right) \quad(5) hi′′=σ(hi′)(5) σ ( ⋅ ) \sigma(\cdot) σ(⋅)为ReLU/GELU等激活函数;
- 上投影(低维→高维): h i ′ ′ ′ = h i ′ ′ W U P ( 6 ) h_i'''=h_i'' W_{UP} \quad(6) hi′′′=hi′′WUP(6) W U P ∈ R r × d W_{UP} \in \mathbb{R}^{r \times d} WUP∈Rr×d;
残差连接: Z = h i + h i ′ ′ ′ ( 7 ) Z=h_i+h_i''' \quad(7) Z=hi+hi′′′(7) Z Z Z为适配后隐藏表示,保留预训练知识。

4.3.2 联邦应用
按适配器适配范围分为三类:
- 通用适配器微调:统一适配器(如FedAdapter动态优化配置);
通用适配器微调指所有客户端采用相同结构与初始参数的适配器模块的场景。在此设置下,相同的适配器模块被插入到每个客户端模型的 Transformer 层中,使联邦训练中的适配机制保持一致,便于稳定聚合与协同更新。这种方法在客户端任务相似、数据分布相对均一的场景中尤为有效 —— 全局优化的适配器能在参与者间良好泛化。表 8 总结了该类别中的代表性方法及其旨在应对的具体挑战。
- 个性化适配器微调:客户端定制(如C2A用超网络生成客户端特定适配器);
个性化适配器微调允许每个客户端根据本地数据分布与任务需求,独立微调其适配器模块。与通用适配器微调不同,该方法不强制客户端间的适配器统一性,而是允许保留个性化适配器参数,以更好捕捉客户端特定知识。这种策略在数据异质性高的联邦场景中优势显著 —— 通过个性化适配器,客户端能提升本地任务性能,同时仍可通过全局模型共享通用知识。表 8 总结了该类别中的代表性方法及其应对的具体挑战。
- 多领域适配器微调:适配跨域(如Fed-MNMT用于多语言翻译降通信开销)。
多领域适配器微调将联邦微调范式扩展到跨不同领域运行的客户端,实现对领域特定任务的高效适配。在此场景中,每个客户端维护自身的领域特定适配器,同时为共享全局模型贡献更新;全局模型聚合跨领域的适配器更新,捕捉领域不变表示以支持泛化。该方法在跨域场景(如多语言自然语言处理)中效果显著 —— 通过将领域特定学习与共享骨干网络解耦,实现个性化与协同学习的平衡。表 8 总结了该类别中的代表性方法及其应对的挑战。
4.4 基于选择(Selective)的微调
4.4.1 基础原理
仅更新模型特定参数(如偏置项、层归一化参数),无需全参数微调,平衡效率与性能,代表策略为偏置微调(仅更偏置项)与部分层微调(仅更关键层)。
偏置微调:仅更新模型的偏置项(bias term),冻结所有其他参数。尽管方法简单,但该策略在多种任务中展现出优异性能,且仅需极低资源开销。
部分微调:将偏置微调的思路泛化,允许更新模型中精心选择的参数子集(如层归一化参数、前馈网络偏置、特定注意力块等)。通过聚焦更新与下游任务最相关的参数,部分微调在提升训练效率、缓解灾难性遗忘的同时,实现模型的快速适配 —— 即使在数据与资源有限的场景中也能有效工作。
4.4.2 关键方法
如DP-BiTFiT用差分隐私偏置微调保隐私,FedPEFT仅共享偏置等小参数降通信开销。
4.5 其他微调方法
- 零阶优化:如FedKSeed用随机种子实现无中间激活存储,降通信开销;
- 拆分学习:如FedBERT结合FL与拆分学习预训BERT;
- 模型压缩:如FedBiOT在服务器压缩LLM,客户端微调轻量适配器;
- 数据选择:如FedHDS用分层选数据减冗余,提升训练效率。
5. 数据集与基准测试


6. 应用场景
6.1 联邦大语言模型在推荐系统中的应用
传统推荐系统依赖集中式数据收集,存在隐私风险。联邦微调可在保护隐私的同时协同优化推荐效果,核心方案包括:
- FELLRec:通过动态参数聚合与自适应学习速率平衡客户端性能,将敏感大语言模型层保留在客户端、其余层卸载至服务器,兼顾隐私与资源效率;
- FELLAS:利用大语言模型增强物品嵌入表示,通过dₓ隐私兼容的序列扰动保障隐私,提升序列推荐效果;
- 联邦RLHF框架(FedBis/FedBiscuit):FedBis协同训练二元选择器过滤敏感偏好数据,FedBiscuit通过客户端聚类训练多选择器,实现隐私保护与人类偏好对齐;
- GPT-FedRec:融合ChatGPT与混合检索增强生成(RAG),缓解数据稀疏性与模型幻觉问题,提升推荐质量。
6.2 联邦大语言模型在生物医学研究中的应用
生物医学数据敏感且分散,联邦微调可在保护隐私的前提下实现模型协同优化,典型应用包括:
- 生理信号分析:Ali等人采用联邦学习微调时序大语言模型,处理心电图、阻抗心动图数据,实现隐私保护的生理信号分析;
- 医疗信息检索:Puppala提出基于联邦学习的GPT聊天机器人,聚合多源医疗信息,通过去中心化训练保障隐私;
- 心理健康分析:Sarwar提出FedMentalCare框架,结合联邦学习与LoRA微调大语言模型,探索客户端数据量与模型架构对训练效果的影响;
- 医学图像分割:Liu的FedFMS框架、Wang的FEDKIM知识注入框架、Dai的FedATA自监督分割框架,均通过联邦训练避免数据集中共享,提升模型泛化性与跨机构知识迁移能力。
6.3 联邦大语言模型在金融领域中的应用
金融数据敏感且受监管,联邦微调可解决集中式训练的隐私与合规问题,关键进展包括:
- OpenFedLLM:Ye等人提出的联邦微调框架,在去中心化私有数据上训练大语言模型,性能超本地训练模型,甚至优于GPT-4;
- 高效训练优化:Shabani通过联邦学习微调金融大语言模型,在降低计算成本与训练时间的同时,性能接近集中式训练;
- 边缘部署:Zeng等人采用LoRA微调金融大语言模型并部署于边缘设备,提升模型推理能力与成本效益,适配垂直领域隐私需求。
7 开放挑战与未来方向
7.1 联邦大语言模型的模型安全
- 挑战:
- 知识产权泄露风险:预训练大语言模型(如Gemini Ultra、GPT-4)训练成本极高(分别约1.91亿美元、7800万美元),联邦场景下常以白盒方式向客户端共享完整模型,易被恶意参与者逆向工程或克隆,损害开发者竞争力。
- 开源模型安全漏洞:开源大语言模型(如DeepSeek、Qwen)因易用性被广泛采用,但客户端(尤其缺乏技术能力者)易因配置不当(如Ollama默认配置漏洞)导致数据泄露、未授权资源占用,单个受攻击客户端还可能向全局模型植入对抗性后门,在医疗、金融等敏感领域危害严重。
- 未来方向:
开发模型水印、加密模型传输、推理混淆协议,防止模型架构与参数泄露;将机密计算、运行时访问控制等技术融入联邦微调流程,保障模型部署安全。
7.2 大语言模型与小语言模型的协作
- 挑战:
大语言模型(LLMs)推理与多模态能力强,但资源需求高,不适配边缘设备;小语言模型(SLMs,如Gemini Nano、Phi-3)轻量易部署,但泛化与任务迁移能力弱,难以应对复杂任务。 - 未来方向:
构建“边缘SLM-云端LLM”混合架构:边缘SLM处理隐私敏感推理(如本地文本生成),云端LLM负责复杂推理(如工具选择、跨域对齐);需设计去中心化协同协议,解决SLM-LLM交互延迟、输出一致性及动态任务分配问题,并通过隐私保护元数据交换保护工具使用日志。
7.3 多模态联邦大语言模型
- 挑战:
现有研究多聚焦文本任务,多模态联邦大语言模型(LMMs,如GPT-4V、LLaVA)面临三大问题:
- 模态异质性:客户端数据类型差异大(如部分仅含文本、部分含图文对),导致模态分布失衡;
- 跨模态对齐难:联邦场景下无法集中共享配对数据(如图文对),模型难以关联不同模态信息;
- 计算负担重:多模态模型对边缘设备内存与算力要求极高。
- 未来方向:
开发模块化微调框架,支持各模态在客户端独立微调;设计模态感知聚合协议,根据模态类型、数据质量加权客户端贡献;探索联邦跨模态对比学习,提升模态对齐效果;通过知识蒸馏、动态子网络激活构建轻量化多模态架构,适配边缘应用(如智能医疗、穿戴设备)。
7.4 联邦大语言模型的持续学习
- 挑战:
动态联邦环境中,客户端数据分布与任务目标随时间变化,需模型增量学习新知识,但大语言模型存在:
- 灾难性遗忘:增量更新易覆盖旧知识;
- 训练成本高:重复训练对边缘设备不友好;
- 客户端参与不稳定:稀疏/不规则参与加剧模型波动。
- 未来方向:
研发参数高效持续学习策略(如弹性权重巩固(EWC)、基于PEFT的模块化更新、压缩内存缓存重放),缓解遗忘并降低开销;设计终身个性化协议,适配客户端动态任务分布与非独立同分布(Non-IID)数据场景,平衡通信效率、隐私保护与模型稳定性。
7.5 内存高效的联邦大语言模型
- 挑战
内存约束是联邦大语言模型规模化部署的核心瓶颈:边缘设备内存通常仅4-12GB,而即使采用低秩适应(LoRA)微调LLaMA2-13B,仍需超50GB峰值内存,大量设备因内存不足无法参与训练。 - 未来方向
从算法与系统层面协同优化:- 算法层面:探索动态层适配、量化感知PEFT(如QLoRA)、结构化模型剪枝;
- 系统层面:采用梯度 checkpointing 与累积、内存感知调度器、云边混合训练架构(选择性计算卸载);
- 构建“算法-系统”协同框架,实时平衡内存、计算与通信开销,让低内存边缘设备(如手机、物联网设备)参与联邦训练。