论文解读：使用人类反馈训练语言模型遵循指令

解读了 Ouyang 等人发表的关于使用人类反馈强化学习（RLHF）微调大型语言模型的论文。文章指出模型规模增大并不等同于更好地遵循用户意图，存在生成有害或不实内容的风险。为解决此问题，作者提出了包含监督微调（SFT）、奖励模型构建（RM）和强化学习（PPO）的三阶段对齐方法。通过引入 KL 散度惩罚防止过拟合，并结合预训练梯度更新（PPO-ptx）缓解性能衰退。该方法使模型在有用性、诚实性和无害性上与人类偏好对齐，并具备跨任务泛化能力。

星辰大海发布于 2026/4/6更新于 2026/7/2149 浏览

Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744.

引言

引言首先指出了当前大型语言模型（LMs）存在的一个核心问题：模型规模变大并不意味着它们能更好地遵循用户的意图。具体而言，大型模型经常生成不真实、有毒或对用户毫无帮助的输出，这是因为语言模型的训练目标（预测网页上的下一个 token）与用户希望的目标（'有用且安全地遵循指令'）是错位的。作者的目标是让模型在**'有用性'（Helpful）、'诚实性'（Honest）和'无害性'（Harmless）**这三个方面与用户意图对齐。

为了解决上述问题，论文提出使用人类反馈强化学习（RLHF）来微调 GPT-3，使其能遵循广泛的书面指令。该方法分为三个步骤展开：

监督学习部分：使用标注者编写的 prompt 和演示数据微调 GPT-3。
奖励模型构建部分：收集模型输出的排名数据，训练一个奖励模型。
强化学习部分：使用 PPO 算法，根据奖励模型的反馈进一步微调模型。

在 RLHF 过程中，模型在公共 NLP 数据集上的性能可能会下降。作者发现通过将 PPO 更新与预训练分布的对数似然更新混合（即 PPO-ptx 模型），可以大大减少这种性能衰退。经过 RLHF 的模型不仅符合训练它的标注者的偏好，也能很好地泛化到未参与训练数据的'保留（held-out）'标注者的偏好上，此外能够将'遵循指令'的能力泛化到其微调数据中很少见的任务上的潜力，例如非英语语言和代码相关的任务。

方法与实验细节

从预训练语言模型，通过三个步骤使其与用户意图对齐。

1. 监督微调（SFT）

收集由人类标注者针对输入的 prompt 提供期望的输出行为，而后使用这些数据对预训练的 GPT-3 模型进行监督学习微调。

2. 训练奖励模型（RM）

收集比较数据。对于同一个 prompt，模型生成多个输出，由人类标注者根据优劣进行排名，利用这些排名数据训练一个奖励模型。该模型的目标是预测人类更偏好哪个输出。其中，RM 使用 6B 参数的模型，通过让标注者对 K 个（4 到 9 个）响应进行排名来提高效率，一次性训练所有组合比较对。

3. 强化学习（RL）

使用 PPO 算法针对奖励模型优化策略，奖励模型的输出作为标量奖励，指导 SFT 模型进行微调，使其生成的输出能获得更高的奖励。RL 环境是一个'老虎机'（bandit）环境，给定 prompt 生成响应并获得奖励。为了防止模型过度优化奖励模型而偏离原始分布，在每个 token 上增加了 KL 散度惩罚。此外为了解决在公共 NLP 数据集上的性能退化问题，作者在 PPO 更新中混合了预训练梯度，由此得到的模型是 PPO-ptx。

关键技术细节

KL 散度

KL 散度（也称为相对熵）是衡量两个概率分布之间差异的一种非对称度量。它量化了当使用分布 Q 来近似真实分布 P 时所损失的信息量。对于离散概率分布 P 和 Q，其公式为：

D_KL(P || Q) = sum_x P(x) * log(P(x) / Q(x))

在 InstructGPT 中，KL 散度的添加是为了防止强化学习模型在优化奖励模型时过拟合。具体而言，在强化学习的每一步，模型生成的最终奖励 R(x,y) 不仅仅是奖励模型给出的分数 r_theta(x, y)，还减去了一个 KL 惩罚项：

R(x, y) = r_theta(x, ) - beta * log(pi_RL(|) / pi_SFT(|))

论文解读：使用人类反馈训练语言模型遵循指令