1.引言
大型语言模型(LLMs,如 GPT-4o、DeepSeek-R1、Qwen3)在下游任务中表现卓越,但需经适配才能落地,且直接训练存在计算开销大、数据稀缺易过拟合的问题(如训练 LLaMA2-65B 需处理 1.4 万亿 token、2048 块 A100 GPU 耗时 21 天),因此预训练 LLM 微调成为主流范式。
当前主流 LLM 微调分三类:
- 集中式微调:聚合客户端数据至中央服务器,效果好但隐私风险高、受法律限制(如 GDPR)图(a);
- 本地微调:客户端本地用私有数据训练,保护隐私但数据规模/多样性不足,MMLU 基准性能较联邦微调下降达 7% 图(b);
联邦微调:客户端本地训练仅传模型更新,服务器聚合构建全局模型,兼顾隐私与数据多样性,是适配 LLM 的优质范式 图(c)。

联邦微调(FedLLM)面临四大核心挑战:
- 通信开销:LLM 参数规模大(如 LLaMA2-7B),每轮训练传参导致延迟与带宽压力;
- 数据异构性:客户端数据非独立同分布(Non-IID),引发模型偏差、收敛慢、性能受损;
- 内存壁垒:边缘设备内存有限(4-12GB),难以支撑 LLM 微调(如 LLaMA2-7B 需 51.85GB);
- 计算开销:客户端硬件能力不足,本地训练耗时久、能耗高,影响参与度。
研究人员将参数高效微调(PEFT)方法应用于联邦学习,分五类:基于 LoRA、提示、适配器、选择性的微调及其他方法,核心是通过小规模任务适配减少可训练参数,降低开销并保性能。
现有综述或局限于传统小模型联邦学习,或聚焦 PEFT 的集中式场景,缺乏 LLM 联邦微调的专项分析与基准。本综述首次系统性探讨该领域,剖析其发展、挑战与方法,提供标准化评估基准,填补研究空白。
2.背景
2.1 大型语言模型
大型语言模型(LLMs)在机器翻译、文本生成、情感分析、问答等自然语言处理任务中表现突出,核心源于其编码复杂语言模式、捕捉长距离上下文依赖的能力,还推动了对话 AI、医疗决策支持等实际应用发展。
架构上,现代 LLMs 由数十至数百层 Transformer 堆叠而成(如 LLaMA2-7B 含 32 层),每层含多头注意力(MHA)和前馈网络(FFN)。第 l 层计算为:
h_{i}'=MHA\left(LN\left(h_{i-1}\right)\right)+h_{i-1}
h_{i}=FFN\left(LN\left(h_{i}'\right)\right)+h_{i}'
( h_{l-1} \in \mathbb{R}^{n ×d} 为输入, n 为序列长度, d 为隐藏维度, LN(·) 为层归一化)

2.2 大型语言模型的训练
LLM 训练分两阶段:
- 预训练:在数十亿至数万亿 token 的无标签语料(学术论文、网站等)上自回归建模,习得基础语义到跨领域推理能力,构建可迁移表示;
微调:用监督学习在任务特定数据集上适配模型,但传统方法需集中数据,引发隐私安全问题,推动隐私保护型微调发展。













