大语言模型联邦微调综述：挑战、方法与应用

0.综述结构

1.引言

大型语言模型（LLMs，如 GPT-4o、DeepSeek-R1、Qwen3）在下游任务中表现卓越，但需经适配才能落地，且直接训练存在计算开销大、数据稀缺易过拟合的问题（如训练 LLaMA2-65B 需处理 1.4 万亿 token、2048 块 A100 GPU 耗时 21 天），因此预训练 LLM 微调成为主流范式。

当前主流 LLM 微调分三类：

集中式微调：聚合客户端数据至中央服务器，效果好但隐私风险高、受法律限制（如 GDPR）；
本地微调：客户端本地用私有数据训练，保护隐私但数据规模/多样性不足，MMLU 基准性能较联邦微调下降达 7%；
联邦微调：客户端本地训练仅传模型更新，服务器聚合构建全局模型，兼顾隐私与数据多样性，是适配 LLM 的优质范式。

联邦微调（FedLLM）面临四大核心挑战：

通信开销：LLM 参数规模大（如 LLaMA2-7B），每轮训练传参导致延迟与带宽压力；
数据异构性：客户端数据非独立同分布（Non-IID），引发模型偏差、收敛慢、性能受损；
内存壁垒：边缘设备内存有限（4-12GB），难以支撑 LLM 微调（如 LLaMA2-7B 需 51.85GB）；
计算开销：客户端硬件能力不足，本地训练耗时久、能耗高，影响参与度。

研究人员将参数高效微调（PEFT）方法应用于联邦学习，分五类：基于 LoRA、提示、适配器、选择性的微调及其他方法，核心是通过小规模任务适配减少可训练参数，降低开销并保性能。

现有综述或局限于传统小模型联邦学习，或聚焦 PEFT 的集中式场景，缺乏 LLM 联邦微调的专项分析与基准。本综述首次系统性探讨该领域，剖析其发展、挑战与方法，提供标准化评估基准，填补研究空白。

2.背景

2.1 大型语言模型

大型语言模型（LLMs）在机器翻译、文本生成、情感分析、问答等自然语言处理任务中表现突出，核心源于其编码复杂语言模式、捕捉长距离上下文依赖的能力，还推动了对话 AI、医疗决策支持等实际应用发展。

架构上，现代 LLMs 由数十至数百层 Transformer 堆叠而成（如 LLaMA2-7B 含 32 层），每层含多头注意力（MHA）和前馈网络（FFN）。第 l 层计算为：

$$h_i' = MHA(LN(h_{i-1})) + h_{i-1}$$ $$h_i = FFN(LN(h_i')) + h_i'$$

($h_{l-1} \in \mathbb{R}^{n \times d}$ 为输入，$n$ 为序列长度，$d$ 为隐藏维度，$LN(\cdot)$ 为层归一化）

2.2 大型语言模型的训练

LLM 训练分两阶段：

预训练：在数十亿至数万亿 token 的无标签语料（学术论文、网站等）上自回归建模，习得基础语义到跨领域推理能力，构建可迁移表示；
微调：用监督学习在任务特定数据集上适配模型，但传统方法需集中数据，引发隐私安全问题，推动隐私保护型微调发展。

2.3 联邦微调

联邦微调让客户端在本地私有数据上适配 LLM，仅传模型更新给服务器，兼顾隐私与数据保护要求，但面临参数规模大、数据异构、内存不足、计算开销高的挑战。

对应解决方案为五类参数高效微调（PEFT）方法：

基于 LoRA：分解权重更新为低秩矩阵，减参数；
基于提示：优化输入提示，冻结模型权重；
基于适配器：插入轻量模块，仅更新模块参数；
基于选择性：微调任务相关层/参数；
其他：含零阶优化、拆分学习、模型压缩等。

3.挑战

3.1 通信开销

联邦微调需客户端与服务器迭代传输模型参数至收敛，LLM（如 LLaMA 系列）参数规模为传统模型（如 BERT）的 10-118 倍，导致数据传输量激增；实际中30% 边缘设备依赖带宽不足 10 Mb/s 的 2G/3G 网络，5G 覆盖率仅 10%，且'掉队者效应'（训练时长由最慢设备决定）会延缓收敛，降低通信开销是 FedLLM 落地关键。

3.2 数据异质性

客户端数据在；传统 FL 的，且 PEFT 对，PEFT 与全参数微调（FFT）的性能差距越大。

维度	同构 LoRA	异构 LoRA	个性化 LoRA
秩（Rank）配置	所有客户端使用相同秩（如 r=16）	客户端自选秩（如 r=8/16/32）	秩可异，但重点在本地数据适配
核心目标	简化聚合，降低通信开销	适配资源/数据异构，提升参与率	捕捉本地数据特性，减少全局偏差
聚合策略	直接平均（如 FedSA-LoRA 仅传 A 矩阵）	堆叠/加权聚合（如 HETLoRA 秩自剪枝）	全局 + 本地模块分离（如 FDLoRA 双模块）
解决的挑战	通信开销（参数传输量）	资源异构（内存/算力差异）、数据异质性	数据异质性（本地数据分布独特）
典型案例	FedSA-LoRA（仅传 A 降通信）	HETLoRA（秩自剪枝 + 稀疏聚合）	FDLoRA（全局 LoRA+ 本地 LoRA）
适用场景	客户端资源相近、数据分布相似（如医院联合调医疗模型）	边缘设备混合（手机 + 服务器）、数据差异大（如跨行业联邦）	数据高度个性化（如个性化推荐、医疗问诊）

维度	通用提示微调	个性化提示微调	多领域提示微调
提示数量	1 套（全客户端共享）	N 套（N 个客户端 N 套）	K 套（K 个领域 K 套）
解决的核心问题	降低通信/聚合成本	应对客户端数据异质性	应对跨领域任务差异
适用场景	同领域、任务相似	同领域、数据差异大	跨领域、任务不相关
服务器聚合难度	低（仅聚合 1 套提示）	中（聚合 N 套提示）	高（聚合 K 套领域提示）

大语言模型联邦微调综述：挑战、方法与应用

0.综述结构

1.引言

2.背景

2.1 大型语言模型

2.2 大型语言模型的训练

2.3 联邦微调

3.挑战

3.1 通信开销

3.2 数据异质性

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 内存墙

3.4 计算开销

4.大语言模型与时序图像的融合

4.1 基于低秩适应（LoRA）的微调

4.1.1 基础原理

4.1.2 联邦应用

4.2 基于提示的微调

4.2.1 基础原理

4.2.2 联邦应用

4.3 基于适配器（Adapter）的微调

4.3.1 基础原理

4.3.2 联邦应用

4.4 基于选择（Selective）的微调

4.4.1 基础原理

4.4.2 关键方法

4.5 其他微调方法

5.数据集与基准测试

6.应用场景

6.1 联邦大语言模型在推荐系统中的应用

6.2 联邦大语言模型在生物医学研究中的应用

6.3 联邦大语言模型在金融领域中的应用

7.开放挑战与未来方向

7.1 联邦大语言模型的模型安全

7.2 大语言模型与小语言模型的协作

7.3 多模态联邦大语言模型

7.4 联邦大语言模型的持续学习

7.5 内存高效的联邦大语言模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具