大模型参数高效微调（PEFT）技术综述：从原理到应用

大语言模型快速发展导致计算资源受限，传统全参数微调难以适应。参数高效微调（PEFT）通过固定大部分预训练参数仅微调少数参数，实现大模型快速适配下游任务。综述了 PEFT 技术的发展历程，涵盖加性微调、选择性微调、重参数化微调和混合微调四大分类。详细介绍了 Adapter、Soft Prompt、LoRA 等核心算法及其变体，探讨了剪枝、量化等提升效率的设计策略。同时分析了 PEFT 在视觉、文本及扩散模型中的跨领域应用，以及云服务和分布式系统中的部署挑战与隐私保护方案。最后总结了建立统一评测基准、增强训练效率及探索扩展定律等未来研究方向，为从业者提供全面的学习指南。

人间过客发布于 2025/2/7更新于 2026/7/2233 浏览

近期，大语言模型、文生图模型等大规模 AI 模型迅猛发展。在这种形势下，如何适应瞬息万变的需求，快速适配大模型至各类下游任务，成为了一个重要的挑战。受限于计算资源，传统的全参数微调方法可能会显得力不从心，因此需要探索更高效的微调策略。上述挑战催生了参数高效微调（PEFT）技术在近期的快速发展。

为了全面总结 PEFT 技术的发展历程并及时跟进最新的研究进展，来自美国东北大学、加州大学 Riverside 分校、亚利桑那州立大学和纽约大学的研究者们调研、整理并总结了参数高效微调（PEFT）技术在大模型上的应用及其发展前景，并总结为一篇全面且前沿的综述。

PEFT 算法分类及各分类下包含的具体算法名称

论文链接：https://arxiv.org/pdf/2403.14608.pdf

PEFT 提供了一个高效的针对预训练模型的下游任务适配手段，其通过固定大部分预训练参数并微调极少数参数，让大模型轻装上阵，迅速适配各种下游任务，让大模型变得不再「巨无霸」。

全文涵盖了近 250 篇最新文献，无论是作为相关行业从业者，或是大模型微调领域的初学者，该综述均可以充当一个全面的学习指南。

具体来说，该综述分别从 PEFT 算法分类，高效 PEFT 设计，PEFT 跨领域应用，以及 PEFT 系统设计部署四大层面，对 PEFT 的发展历程及其最新进展进行了全面且细致的阐述。

1、PEFT 背景介绍

论文首先以最近大热的 LLaMA 模型作为代表，分析并阐述了大语言模型（LLM）和其他基于 Transformer 的模型的架构和计算流程，并定义了所需的符号表示，以便于在后文分析各类 PEFT 技术。

此外，作者还概述了 PEFT 算法的分类方法。作者根据不同的操作将 PEFT 算法划分为加性微调、选择性微调、重参数化微调和混合微调。各分类的具体定义将在后文详细讲解。

在背景部分，作者还介绍了验证 PEFT 方法性能所使用的常见下游基准测试和数据集，便于读者熟悉常见的任务设置。

2、PEFT 方法分类

作者首先给出了加性微调、选择性微调、重参数化微调和混合微调的定义：

加性微调通过在预训练模型的特定位置添加可学习的模块或参数，以最小化适配下游任务时模型的可训练的参数量。

选择性微调在微调过程中只更新模型中的一部分参数，而保持其余参数固定。相较于加性微调，选择性微调无需更改预训练模型的架构。

重参数化微调通过构建预训练模型参数的（低秩的）表示形式用于训练。在推理时，参数将被等价的转化为预训练模型参数结构，以避免引入额外的推理延迟。

这三者的区分如图四所示：

PEFT 三种主要微调方式的区别

混合微调结合了各类 PEFT 方法的优势，并通过分析不同方法的相似性以构建一个统一的 PEFT 架构，或寻找最优的 PEFT 超参数。

接下来，作者对每个 PEFT 种类进一步细分：

A. 加性微调：

1）Adapter

Adapter 通过在 Transformer 块内添加小型 Adapter 层，实现了参数高效微调。每个 Adapter 层包含一个下投影矩阵、一个激活函数，和一个上投影矩阵。下投影矩阵将输入特征映射到瓶颈维度 r，上投影矩阵将瓶颈特征映射回原始维度 d。

图五展示了三种典型的 Adapter 层在模型中的插入策略。Serial Adapter 顺序地插入到 Transformer 模块之后，Parallel Adapter 则并行地插入到 Transformer 模块旁。CoDA 是一种稀疏的 Adapter 方式，对于重要的 token，CoDA 同时利用预训练 Transformer 模块和 Adapter 分支进行推理；而对于不重要的 token，CoDA 则仅使用 Adapter 分支进行推理，以节省计算开销。

2）Soft Prompt