开源大模型微调技术详解：从 Prompt Tuning 到 RLHF

开源大模型微调涉及全量微调、参数高效微调（PEFT）及人类反馈强化学习（RLHF）三大方向。核心内容包括 Prompt Tuning、Prefix Tuning、P-tuning v2 和 LoRA 的原理对比，以及 DeepSpeed ZeRO 在分布式训练中的应用。通过理论推导与代码实现示例，阐述如何低成本适配大模型至特定任务，提供从数据准备到模型部署的最佳实践建议。

禅心发布于 2025/2/6更新于 2026/6/220 浏览

0. 简介

随着开源大模型的逐渐增多，学习并了解其基础知识已成为技术人员的重要技能。在深度学习中，微调（Fine-tuning）是一种改进预训练模型性能的关键技术。除了微调 ChatGPT 之外，还有许多其他预训练模型可以进行微调。以下是几种常见的微调预训练模型的方法：

全量微调：将预训练模型的所有层都参与微调，以适应新的任务。
顶层微调：只微调预训练模型的顶层，以适应新的任务。
冻结底层：将预训练模型的底层固定不变，只对顶层进行微调。
逐层微调：从底层开始，逐层微调预训练模型，直到所有层都被微调。
迁移学习：将预训练模型的知识迁移到新的任务中，以提高模型性能。这种方法通常使用微调顶层或冻结底层的方法。

目前来说，常用的方法一般是前三种。简单来说，模型的参数就类比于一个在大学学习到所有专业知识的大学生，基于过往的学习经验以及对生活中的一些事情，已经有了属于自己的一套学习方法思维逻辑。而微调则是一个大学生毕业后从事某一种行业的工作，那他就要开始学习工作上的内容，来产出工作的成果。下面我们就来介绍一些常用的微调方法。

1. Fine tuning

Fine tuning 是一种在自然语言处理（NLP）中使用的技术，用于将预训练的语言模型适应于特定任务或领域。Fine tuning 的基本思想是采用已经在大量文本上进行训练的预训练语言模型，然后在小规模的任务特定文本上继续训练它。

经典的 Fine tuning 方法包括将预训练模型与少量特定任务数据一起继续训练。在这个过程中，预训练模型的权重被更新，以更好地适应任务。所需的 Fine-tuning 量取决于预训练语料库和任务特定语料库之间的相似性。如果两者相似，可能只需要少量的 Fine tuning。如果两者不相似，则可能需要更多的 Fine tuning。

微调大模型示意图

2. 参数高效微调方法

2.1 Prompt Tuning (P-Tuning)

参数高效性微调方法中实现最简单的方法还是 Prompt tuning（也就是我们常说的 P-Tuning），固定模型前馈层参数，仅仅更新部分 embedding 参数即可实现低成本微调大模型。

Prompt Tuning 结构图

经典的 Prompt tuning 方式不涉及对底层模型的任何参数更新。相反，它侧重于精心制作可以指导预训练模型生成所需输出的输入提示或模板。主要结构是利用了一个 prompt encoder（BiLSTM+MLP），将一些 pseudo prompt 先 encode（离散 token）再与 input embedding 进行拼接，同时利用 LSTM 进行 Reparamerization 加速训练，并引入少量自然语言提示的锚字符（Anchor，例如 Britain）进一步提升效果。然后结合（capital, Britain）生成得到结果，再优化生成的 encoder 部分。但是 P-tuning v1 有两个显著缺点：任务不通用和规模不通用。在一些复杂的自然语言理解 NLU 任务上效果很差，同时预训练模型的参数量不能过小。

2.2 Prefix Tuning

如果分析 P-tuning，那不得不提到 prefix-tuning 技术，相对于 fine-tuning，在调节模型的过程中只优化一小段可学习的 continuous task-specific vector（prefix）而不是整个模型的参数。

Prefix Tuning 针对不同的模型结构有设计不同的模式，以自回归的模型为例，不再使用 token 去作为前缀，而是直接使用参数作为前缀，比如一个 $l \times d$ 的矩阵 $P$ 作为前缀，但直接使用这样的前缀效果不稳定，因此使用一个 MLP 层重参数化，并放大维度 $d$，除了在 embedding 层加入这个前缀之外，还在其他的所有层都添加这样一个前缀。最后微调时只调整前缀的参数，大模型的参数保持不变。保存时只需要为每个任务保存重参数的结果即可。

Prefix Tuning 结构图