大语言模型联邦微调综述:挑战、方法与未来方向
综述了大型语言模型(LLM)的联邦微调技术。针对通信开销、数据异质性、内存墙及计算开销四大挑战,介绍了基于 LoRA、提示、适配器、选择性及其他参数高效微调方法。探讨了在推荐系统、生物医学及金融领域的应用,并展望了模型安全、大小模型协作、多模态、持续学习及内存优化等未来方向。旨在填补 LLM 联邦微调专项分析与基准的空白。

综述了大型语言模型(LLM)的联邦微调技术。针对通信开销、数据异质性、内存墙及计算开销四大挑战,介绍了基于 LoRA、提示、适配器、选择性及其他参数高效微调方法。探讨了在推荐系统、生物医学及金融领域的应用,并展望了模型安全、大小模型协作、多模态、持续学习及内存优化等未来方向。旨在填补 LLM 联邦微调专项分析与基准的空白。

大型语言模型(LLMs,如 GPT-4o、DeepSeek-R1、Qwen3)在下游任务中表现卓越,但需经适配才能落地,且直接训练存在计算开销大、数据稀缺易过拟合的问题(如训练 LLaMA2-65B 需处理 1.4 万亿 token、2048 块 A100 GPU 耗时 21 天),因此预训练 LLM 微调成为主流范式。
当前主流 LLM 微调分三类:
联邦微调:客户端本地训练仅传模型更新,服务器聚合构建全局模型,兼顾隐私与数据多样性,是适配 LLM 的优质范式 图(c)。

联邦微调(FedLLM)面临四大核心挑战:
研究人员将参数高效微调(PEFT)方法应用于联邦学习,分五类:基于 LoRA、提示、适配器、选择性的微调及其他方法,核心是通过小规模任务适配减少可训练参数,降低开销并保性能。
现有综述或局限于传统小模型联邦学习,或聚焦 PEFT 的集中式场景,缺乏 LLM 联邦微调的专项分析与基准。本综述首次系统性探讨该领域,剖析其发展、挑战与方法,提供标准化评估基准,填补研究空白。
大型语言模型(LLMs)在机器翻译、文本生成、情感分析、问答等自然语言处理任务中表现突出,核心源于其编码复杂语言模式、捕捉长距离上下文依赖的能力,还推动了对话 AI、医疗决策支持等实际应用发展。
架构上,现代 LLMs 由数十至数百层 Transformer 堆叠而成(如 LLaMA2-7B 含 32 层),每层含多头注意力(MHA)和前馈网络(FFN)。第 l 层计算为:
h_{i}'=MHA\left(LN\left(h_{i-1}\right)\right)+h_{i-1}
h_{i}=FFN\left(LN\left(h_{i}'\right)\right)+h_{i}'
( h_{l-1} \in \mathbb{R}^{n ×d} 为输入, n 为序列长度, d 为隐藏维度, LN(·) 为层归一化)

LLM 训练分两阶段:
微调:用监督学习在任务特定数据集上适配模型,但传统方法需集中数据,引发隐私安全问题,推动隐私保护型微调发展。

联邦微调让客户端在本地私有数据上适配 LLM,仅传模型更新给服务器,兼顾隐私与数据保护要求,但面临参数规模大、数据异构、内存不足、计算开销高的挑战。
对应解决方案为五类参数高效微调(PEFT)方法:
联邦微调需客户端与服务器迭代传输模型参数至收敛,LLM(如 LLaMA 系列)参数规模为传统模型(如 BERT)的 10-118 倍,导致数据传输量激增;实际中30% 边缘设备依赖带宽不足 10 Mb/s 的 2G/3G 网络,5G 覆盖率仅 10%,且'掉队者效应'(训练时长由最慢设备决定)会延缓收敛,降低通信开销是 FedLLM 落地关键。

客户端数据在分布、质量、数量上差异显著,会导致模型更新冲突、收敛慢、泛化差;传统 FL 的正则化、聚合优化等缓解策略在 FedLLM 中应用不足,且 PEFT 对数据分布偏移更敏感,数据异质性越高,PEFT 与全参数微调(FFT)的性能差距越大。

本地微调需存储模型参数、中间激活值与梯度,边缘设备内存通常仅 4-12 GB;微调 LLaMA2-7B 需 51.85 GB GPU 内存(BERT 的 7.68 倍),LLaMA2-13B 需 98.56 GB,硬件内存与 LLM 需求不匹配形成'内存墙',限制设备参与,降低数据多样性与模型性能。

LLM 微调的前向/反向传播计算密集,批量为16时,TinyLLaMA 微调的 FLOPs 是 BERT 的 8.6 倍,LLaMA2-13B 是 103.07 倍;会导致训练时间延长、电池设备能耗过高、硬件性能衰减,需适配设备异质性的计算高效策略。


LoRA 通过低秩矩阵分解减少可训练参数:将预训练权重矩阵 W_0 ∈ R^{\bar{U} × V} 分解为 A ∈ R^{r × V}(低维投影)与 B ∈ R^{U × r}(回映射),其中 r ≪ min(U,V) 为低秩维度。微调时仅更新 A 和 B,原始权重 W_0 冻结,核心计算式为:
h=W_0 X+B A X (3)
式中, W_0 X 为预训练模型初始预测, B A X 为任务特定适配,二者元素-wise 相加得最终输出,兼顾效率与泛化。

按秩配置分为三类:
同构 LoRA 指所有客户端为其 LoRA 模块采用相同低秩维度 r 的场景。这种统一配置简化了客户端间的聚合与模型同步过程。表 2 总结了该类别中的代表性方法及其应对的具体挑战。
异构 LoRA 允许各客户端根据自身数据特征或资源约束,为其 LoRA 模块采用不同的秩 r。这种异构性既可以体现在客户端间(模型间异构),也可以体现在同一模型的不同层间(层内异构)。通过允许客户端选择最适配自身能力与本地数据的秩,该方法为联邦微调过程引入了更高的灵活性和资源感知能力。表 3 总结了该类别中的代表性方法及其应对的具体挑战。
个性化 LoRA 允许每个参与者通过个性化低秩适配矩阵微调自身模型,使其能更好地与本地数据特征对齐。该方法在保留客户端特定差异的同时,提升了全局模型在客户端间的泛化能力。表 4 总结了该类别中的代表性方法及其旨在应对的具体挑战。
| 维度 | 同构 LoRA | 异构 LoRA | 个性化 LoRA |
|---|---|---|---|
| 秩(Rank)配置 | 所有客户端使用相同秩(如 r=16) | 客户端自选秩(如 r=8/16/32) | 秩可异,但重点在本地数据适配 |
| 核心目标 | 简化聚合,降低通信开销 | 适配资源/数据异构,提升参与率 | 捕捉本地数据特性,减少全局偏差 |
| 聚合策略 | 直接平均(如 FedSA-LoRA 仅传 A 矩阵) | 堆叠/加权聚合(如 HETLoRA 秩自剪枝) | 全局 + 本地模块分离(如 FDLoRA 双模块) |
| 解决的挑战 | 通信开销(参数传输量) | 资源异构(内存/算力差异)、数据异质性 | 数据异质性(本地数据分布独特) |
| 典型案例 | FedSA-LoRA(仅传 A 降通信) | HETLoRA(秩自剪枝 + 稀疏聚合) | FDLoRA(全局 LoRA+ 本地 LoRA) |
| 适用场景 | 客户端资源相近、数据分布相似(如医院联合调医疗模型) | 边缘设备混合(手机 + 服务器)、数据差异大(如跨行业联邦) | 数据高度个性化(如个性化推荐、医疗问诊) |
将可训练提示嵌入 P ∈ R^{l_p × d} ( l_p 为提示长度, d 为模型隐藏维度)前置到原始输入 X ∈ R^{l_x × d}( l_x 为输入长度),拼接后输入冻结参数 θ 的预训练模型,核心式为:
Z=f([P ; X] ; θ)
式中, [P ; X] 为提示与输入的拼接, f(·;θ) 为冻结模型函数,仅优化 P 即可实现任务适配,大幅降低资源开销。

按提示适配范围分为三类:
通用提示微调指所有参与客户端学习并采用同一组共享提示嵌入的方法。在这种设置下,相同的提示会被前置到每个客户端的输入序列中,为模型提供一致的任务特定引导,使全局模型能在多样化数据源上实现泛化。表 5 总结了该类别中的代表性方法及其旨在应对的具体挑战。
个性化提示微调允许每个客户端根据本地数据分布和任务需求,定制专属提示嵌入。通过为每个客户端优化独特的提示,模型能更好地捕捉本地数据的特有特征 —— 这一过程直接应对了数据异质性挑战,同时仍可通过全局模型共享通用知识。表 6 总结了该类别中的代表性方法及其针对的具体挑战。
多领域提示微调将基于提示的方法扩展到联邦客户端跨不同领域或应用场景的场景。在此类场景中,每个客户端配备领域特定提示嵌入,使共享的全局模型能适配多样化的上下文与数据分布条件。该方法提升了模型在异构领域间的泛化能力,同时保持共享全局基础的一致性,在跨行业、多场景的实际部署中极具价值。表 7 总结了该类别中的代表性方法及其应对的具体挑战。
| 维度 | 通用提示微调 | 个性化提示微调 | 多领域提示微调 |
|---|---|---|---|
| 提示数量 | 1 套(全客户端共享) | N 套(N 个客户端 N 套) | K 套(K 个领域 K 套) |
| 解决的核心问题 | 降低通信/聚合成本 | 应对客户端数据异质性 | 应对跨领域任务差异 |
| 适用场景 | 同领域、任务相似 | 同领域、数据差异大 | 跨领域、任务不相关 |
| 服务器聚合难度 | 低(仅聚合 1 套提示) | 中(聚合 N 套提示) | 高(聚合 K 套领域提示) |
插入轻量级适配器模块,通过'下投影→非线性→上投影 + 残差连接'转换中间表示,仅更新适配器参数 (W_DP、W_UP),核心公式如下:
残差连接: Z=h_i+h_i''' (7) Z 为适配后隐藏表示,保留预训练知识。

按适配器适配范围分为三类:
通用适配器微调指所有客户端采用相同结构与初始参数的适配器模块的场景。在此设置下,相同的适配器模块被插入到每个客户端模型的 Transformer 层中,使联邦训练中的适配机制保持一致,便于稳定聚合与协同更新。这种方法在客户端任务相似、数据分布相对均一的场景中尤为有效 —— 全局优化的适配器能在参与者间良好泛化。表 8 总结了该类别中的代表性方法及其旨在应对的具体挑战。
个性化适配器微调允许每个客户端根据本地数据分布与任务需求,独立微调其适配器模块。与通用适配器微调不同,该方法不强制客户端间的适配器统一性,而是允许保留个性化适配器参数,以更好捕捉客户端特定知识。这种策略在数据异质性高的联邦场景中优势显著 —— 通过个性化适配器,客户端能提升本地任务性能,同时仍可通过全局模型共享通用知识。表 8 总结了该类别中的代表性方法及其应对的具体挑战。
多领域适配器微调将联邦微调范式扩展到跨不同领域运行的客户端,实现对领域特定任务的高效适配。在此场景中,每个客户端维护自身的领域特定适配器,同时为共享全局模型贡献更新;全局模型聚合跨领域的适配器更新,捕捉领域不变表示以支持泛化。该方法在跨域场景(如多语言自然语言处理)中效果显著 —— 通过将领域特定学习与共享骨干网络解耦,实现个性化与协同学习的平衡。表 8 总结了该类别中的代表性方法及其应对的挑战。
仅更新模型特定参数(如偏置项、层归一化参数),无需全参数微调,平衡效率与性能,代表策略为偏置微调(仅更偏置项)与部分层微调(仅更关键层)。
偏置微调:仅更新模型的偏置项(bias term),冻结所有其他参数。尽管方法简单,但该策略在多种任务中展现出优异性能,且仅需极低资源开销。
部分微调:将偏置微调的思路泛化,允许更新模型中精心选择的参数子集(如层归一化参数、前馈网络偏置、特定注意力块等)。通过聚焦更新与下游任务最相关的参数,部分微调在提升训练效率、缓解灾难性遗忘的同时,实现模型的快速适配 —— 即使在数据与资源有限的场景中也能有效工作。
如 DP-BiTFiT 用差分隐私偏置微调保隐私,FedPEFT 仅共享偏置等小参数降通信开销。


传统推荐系统依赖集中式数据收集,存在隐私风险。联邦微调可在保护隐私的同时协同优化推荐效果,核心方案包括:
生物医学数据敏感且分散,联邦微调可在保护隐私的前提下实现模型协同优化,典型应用包括:
金融数据敏感且受监管,联邦微调可解决集中式训练的隐私与合规问题,关键进展包括:

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online