大模型微调方法总结：从全量到参数高效微调

大模型微调旨在解决提示词工程成本过高、效果受限及数据隐私问题。主要分为全量微调（FFT）与参数高效微调（PEFT）。PEFT 包括增加式（如 Adapter、Prefix Tuning、Prompt Tuning）、选择式（BitFit）和重新参数化（LoRA、AdaLoRA）三类。此外还有监督微调（SFT）、人类反馈强化学习（RLHF）及 AI 反馈强化学习（RLAIF）等训练方式。选择合适的微调方案可在可控成本下提升模型在特定领域的能力。实际选型需综合考虑资源、性能和部署环境，LoRA 因实现简单且推理无延迟成为当前最流行选择。

内存管理发布于 2025/2/6更新于 2026/6/222 浏览

大模型已成为 AI 时代的基础设施。作为像水、电一样的基础设施，预训练大模型这样的艰巨任务，只会有少数技术实力强、财力雄厚的公司去做。绝大多数人是大模型的应用者。对这部分人来说，掌握如何用好大模型的技术更加重要。

用好大模型的第一个层次是掌握提示词工程（Prompt Engineering）。

用好大模型的第二个层次是大模型的微调（Fine Tuning），这也是本文的主题。

为什么要对大模型进行微调

通常，要对大模型进行微调，有以下一些原因：

训练成本非常高：大模型的参数量非常大，每家公司都去从头训练一个自己的大模型，性价比非常低；
Prompt Engineering 的局限性：这种方式虽然容易上手，但缺点明显。大模型对输入序列长度有限制，Prompt Engineering 会把 Prompt 搞得很长。越长的 Prompt，推理成本越高，因为推理成本跟 Prompt 长度的平方正向相关。另外，Prompt 太长会因超过限制而被截断，导致输出质量打折，这是一个严重的问题。
特定领域能力提升：如果企业有比较好的自有数据，可以通过自有数据更好地提升大模型在特定领域的能力，这时候微调非常适用。
个性化服务：要在个性化的服务中使用大模型的能力，针对每个用户的数据训练一个轻量级的微调模型是一个不错的方案。
数据安全：如果数据不能传递给第三方大模型服务，搭建自己的大模型就非常必要。通常这些开源的大模型需要用自有数据进行微调才能满足业务需求。

什么时候需要 LLM 微调

说起 LLM，总会涉及到上下文学习、零样本、单样本和少样本推理等话题。

上下文学习（In-context learning）：通过在提示中加入特定任务示例来改进提示的方法，为 LLM 提供了完成任务的蓝图。
零样本（Zero-shot）、单样本（One-shot）和少样本（Few-shot）推理：零样本推理是在提示中直接使用输入数据，不添加额外示例。如果零样本推理未能达到预期结果，可以使用单样本或少样本推理。这些策略涉及在提示中添加一个或多个已完成的示例，帮助较小的 LLM 表现得更好。
上下文学习的问题：将以上这些技术直接应用于用户提示，旨在优化模型输出，使其更符合用户偏好。问题是它们并不总是有效，尤其是对于较小的 LLM。除此之外，在提示中包含的任何示例都会占用宝贵的上下文窗口空间，减少了包含其他有用信息的空间。

当以上方式无法解决相关问题时，这就需要 LLM 微调。但它与预训练阶段使用大量非结构化文本数据不同，微调是一个监督学习过程。这意味着你使用标记好的示例数据集来更新 LLM 的权重。这些标记好的示例通常是 prompt-response，使得模型能更好地完成特定任务。

如何对大模型进行微调

从参数规模的角度

大模型的微调分成两条技术路线：

全量微调（FFT, Full Fine Tuning）：对全量的参数进行全量的训练。原理是用特定的数据对大模型进行训练，将 W 变成 W'，W'相比 W，最大的优点就是上述特定数据领域的表现会好很多。
- 缺点：训练成本高，参数量跟预训练的一样多；存在灾难性遗忘（Catastrophic Forgetting），用特定训练数据去微调可能会把原来表现好的别的领域的能力变差。
参数高效微调（PEFT, Parameter-Efficient Fine Tuning）：只对部分的参数进行训练。主要想解决的问题是 FFT 存在的成本高和灾难性遗忘问题，是目前比较主流的微调方案。

从训练数据的来源及方法角度

监督式微调（SFT, Supervised Fine Tuning）：用人工标注的数据，用传统机器学习中监督学习的方法对大模型进行微调。
基于人类反馈的强化学习微调（RLHF, Reinforcement Learning with Human Feedback）：把人类的反馈通过强化学习的方式引入到对大模型的微调中去，让大模型生成的结果更加符合人类的一些期望。
基于 AI 反馈的强化学习微调（RLAIF, Reinforcement Learning with AI Feedback）：原理大致跟 RLHF 类似，但是反馈的来源是 AI。这里想解决反馈系统的效率问题，因为收集人类反馈成本较高、效率较低。

大模型微调方法总结：从全量到参数高效微调

为什么要对大模型进行微调

什么时候需要 LLM 微调

如何对大模型进行微调

从参数规模的角度

从训练数据的来源及方法角度

更多推荐文章

相关免费在线工具

流行的参数高效微调技术（PEFT）方案

1. 增加式方法（Additive methods）

1.1 Adapter Tuning

1.2 Soft Prompts

1.2.1 Prefix Tuning

1.2.2 P-Tuning

1.2.3 Prompt Tuning

1.2.4 P-Tuning v2

2. 选择式方法

2.1 BitFit

3. 重新参数化方法

3.1 LoRA

3.2 AdaLoRA

4. 参数微调方法小结

实践建议与选型指南

更多推荐文章

相关免费在线工具

大模型微调方法总结：从全量到参数高效微调

为什么要对大模型进行微调

什么时候需要 LLM 微调

如何对大模型进行微调

从参数规模的角度

从训练数据的来源及方法角度

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

流行的参数高效微调技术（PEFT）方案

1. 增加式方法（Additive methods）

1.1 Adapter Tuning

1.2 Soft Prompts

1.2.1 Prefix Tuning

1.2.2 P-Tuning

1.2.3 Prompt Tuning

1.2.4 P-Tuning v2

2. 选择式方法

2.1 BitFit

3. 重新参数化方法

3.1 LoRA

3.2 AdaLoRA

4. 参数微调方法小结

实践建议与选型指南

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具