大语言模型联邦微调综述:挑战、方法与应用
综述了大语言模型(LLM)的联邦微调(FedLLM)技术。针对集中式训练的隐私风险和本地微调的性能瓶颈,联邦微调通过本地训练仅传输更新来兼顾隐私与数据多样性。文章分析了通信开销、数据异质性、内存墙和计算开销四大核心挑战,并系统梳理了基于 LoRA、提示、适配器、选择性及其他方法的参数高效微调(PEFT)策略。此外,还探讨了在推荐系统、生物医学及金融领域的应用场景,并指出了模型安全、多模态融合、持续学习及内存优化等未来研究方向。

综述了大语言模型(LLM)的联邦微调(FedLLM)技术。针对集中式训练的隐私风险和本地微调的性能瓶颈,联邦微调通过本地训练仅传输更新来兼顾隐私与数据多样性。文章分析了通信开销、数据异质性、内存墙和计算开销四大核心挑战,并系统梳理了基于 LoRA、提示、适配器、选择性及其他方法的参数高效微调(PEFT)策略。此外,还探讨了在推荐系统、生物医学及金融领域的应用场景,并指出了模型安全、多模态融合、持续学习及内存优化等未来研究方向。

大型语言模型(LLMs,如 GPT-4o、DeepSeek-R1、Qwen3)在下游任务中表现卓越,但需经适配才能落地,且直接训练存在计算开销大、数据稀缺易过拟合的问题(如训练 LLaMA2-65B 需处理 1.4 万亿 token、2048 块 A100 GPU 耗时 21 天),因此预训练 LLM 微调成为主流范式。
当前主流 LLM 微调分三类:
联邦微调(FedLLM)面临四大核心挑战:
研究人员将参数高效微调(PEFT)方法应用于联邦学习,分五类:基于 LoRA、提示、适配器、选择性的微调及其他方法,核心是通过小规模任务适配减少可训练参数,降低开销并保性能。
现有综述或局限于传统小模型联邦学习,或聚焦 PEFT 的集中式场景,缺乏 LLM 联邦微调的专项分析与基准。本综述首次系统性探讨该领域,剖析其发展、挑战与方法,提供标准化评估基准,填补研究空白。
大型语言模型(LLMs)在机器翻译、文本生成、情感分析、问答等自然语言处理任务中表现突出,核心源于其编码复杂语言模式、捕捉长距离上下文依赖的能力,还推动了对话 AI、医疗决策支持等实际应用发展。
架构上,现代 LLMs 由数十至数百层 Transformer 堆叠而成(如 LLaMA2-7B 含 32 层),每层含多头注意力(MHA)和前馈网络(FFN)。第 l 层计算为:
$$h_i' = MHA(LN(h_{i-1})) + h_{i-1}$$ $$h_i = FFN(LN(h_i')) + h_i'$$
($h_{l-1} \in \mathbb{R}^{n \times d}$ 为输入,$n$ 为序列长度,$d$ 为隐藏维度,$LN(\cdot)$ 为层归一化)
LLM 训练分两阶段:
联邦微调让客户端在本地私有数据上适配 LLM,仅传模型更新给服务器,兼顾隐私与数据保护要求,但面临参数规模大、数据异构、内存不足、计算开销高的挑战。
对应解决方案为五类参数高效微调(PEFT)方法:
联邦微调需客户端与服务器迭代传输模型参数至收敛,LLM(如 LLaMA 系列)参数规模为传统模型(如 BERT)的 10-118 倍,导致数据传输量激增;实际中30% 边缘设备依赖带宽不足 10 Mb/s 的 2G/3G 网络,5G 覆盖率仅 10%,且'掉队者效应'(训练时长由最慢设备决定)会延缓收敛,降低通信开销是 FedLLM 落地关键。
客户端数据在分布、质量、数量上差异显著,会导致模型更新冲突、收敛慢、泛化差;传统 FL 的正则化、聚合优化等缓解策略在 FedLLM 中应用不足,且 PEFT 对数据分布偏移更敏感,数据异质性越高,PEFT 与全参数微调(FFT)的性能差距越大。
本地微调需存储模型参数、中间激活值与梯度,边缘设备内存通常仅 4-12 GB;微调 LLaMA2-7B 需 51.85 GB GPU 内存(BERT 的 7.68 倍),LLaMA2-13B 需 98.56 GB,硬件内存与 LLM 需求不匹配形成'内存墙',限制设备参与,降低数据多样性与模型性能。
LLM 微调的前向/反向传播计算密集,批量为16时,TinyLLaMA 微调的 FLOPs 是 BERT 的 8.6 倍,LLaMA2-13B 是 103.07 倍;会导致训练时间延长、电池设备能耗过高、硬件性能衰减,需适配设备异质性的计算高效策略。
LoRA 通过低秩矩阵分解减少可训练参数:将预训练权重矩阵 $W_0 \in \mathbb{R}^{\bar{U} \times V}$ 分解为 $A \in \mathbb{R}^{r \times V}$(低维投影)与 $B \in \mathbb{R}^{U \times r}$(回映射),其中 $r \ll min(U,V)$ 为低秩维度。微调时仅更新 $A$ 和 $B$,原始权重 $W_0$ 冻结,核心计算式为:
$$h = W_0 X + BAX$$
式中,$W_0 X$ 为预训练模型初始预测,$BAX$ 为任务特定适配,二者元素-wise 相加得最终输出,兼顾效率与泛化。
按秩配置分为三类:
| 维度 | 同构 LoRA | 异构 LoRA | 个性化 LoRA |
|---|---|---|---|
| 秩(Rank)配置 | 所有客户端使用相同秩(如 r=16) | 客户端自选秩(如 r=8/16/32) | 秩可异,但重点在本地数据适配 |
| 核心目标 | 简化聚合,降低通信开销 | 适配资源/数据异构,提升参与率 | 捕捉本地数据特性,减少全局偏差 |
| 聚合策略 | 直接平均(如 FedSA-LoRA 仅传 A 矩阵) | 堆叠/加权聚合(如 HETLoRA 秩自剪枝) | 全局 + 本地模块分离(如 FDLoRA 双模块) |
| 解决的挑战 | 通信开销(参数传输量) | 资源异构(内存/算力差异)、数据异质性 | 数据异质性(本地数据分布独特) |
| 典型案例 | FedSA-LoRA(仅传 A 降通信) | HETLoRA(秩自剪枝 + 稀疏聚合) | FDLoRA(全局 LoRA+ 本地 LoRA) |
| 适用场景 | 客户端资源相近、数据分布相似(如医院联合调医疗模型) | 边缘设备混合(手机 + 服务器)、数据差异大(如跨行业联邦) | 数据高度个性化(如个性化推荐、医疗问诊) |
将可训练提示嵌入 $P \in \mathbb{R}^{l_p \times d}$ ($l_p$ 为提示长度,$d$ 为模型隐藏维度)前置到原始输入 $X \in \mathbb{R}^{l_x \times d}$ ($l_x$ 为输入长度),拼接后输入冻结参数 $\theta$ 的预训练模型,核心式为:
$$Z = f([P ; X] ; \theta)$$
式中,$[P ; X]$ 为提示与输入的拼接,$f(\cdot ; \theta)$ 为冻结模型函数,仅优化 $P$ 即可实现任务适配,大幅降低资源开销。
按提示适配范围分为三类:
| 维度 | 通用提示微调 | 个性化提示微调 | 多领域提示微调 |
|---|---|---|---|
| 提示数量 | 1 套(全客户端共享) | N 套(N 个客户端 N 套) | K 套(K 个领域 K 套) |
| 解决的核心问题 | 降低通信/聚合成本 | 应对客户端数据异质性 | 应对跨领域任务差异 |
| 适用场景 | 同领域、任务相似 | 同领域、数据差异大 | 跨领域、任务不相关 |
| 服务器聚合难度 | 低(仅聚合 1 套提示) | 中(聚合 N 套提示) | 高(聚合 K 套领域提示) |
插入轻量级适配器模块,通过'下投影→非线性→上投影 + 残差连接'转换中间表示,仅更新适配器参数 ($W_{DP}$、$W_{UP}$),核心公式如下:
残差连接:$Z = h_i + h_i'''$ $Z$ 为适配后隐藏表示,保留预训练知识。
按适配器适配范围分为三类:
仅更新模型特定参数(如偏置项、层归一化参数),无需全参数微调,平衡效率与性能,代表策略为偏置微调(仅更偏置项)与部分层微调(仅更关键层)。
偏置微调:仅更新模型的偏置项(bias term),冻结所有其他参数。尽管方法简单,但该策略在多种任务中展现出优异性能,且仅需极低资源开销。
部分微调:将偏置微调的思路泛化,允许更新模型中精心选择的参数子集(如层归一化参数、前馈网络偏置、特定注意力块等)。通过聚焦更新与下游任务最相关的参数,部分微调在提升训练效率、缓解灾难性遗忘的同时,实现模型的快速适配 —— 即使在数据与资源有限的场景中也能有效工作。
如 DP-BiTFiT 用差分隐私偏置微调保隐私,FedPEFT 仅共享偏置等小参数降通信开销。
传统推荐系统依赖集中式数据收集,存在隐私风险。联邦微调可在保护隐私的同时协同优化推荐效果,核心方案包括:
生物医学数据敏感且分散,联邦微调可在保护隐私的前提下实现模型协同优化,典型应用包括:
金融数据敏感且受监管,联邦微调可解决集中式训练的隐私与合规问题,关键进展包括:

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online