论文解读：使用人类反馈训练语言模型遵循指令

解读了 Ouyang 等人提出的 RLHF 方法，旨在解决大语言模型输出不真实、有毒或无帮助的问题。通过监督微调（SFT）、奖励模型（RM）构建和强化学习（PPO）三个步骤，使模型在有用性、诚实性和无害性上与用户意图对齐。为解决性能退化问题，引入了 KL 散度惩罚防止过拟合，并混合预训练梯度（PPO-ptx）以保留基础能力。

萤火微光发布于 2026/4/6更新于 2026/7/1045 浏览

Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744.

引言

引言指出当前大型语言模型（LMs）存在核心问题：模型规模变大并不意味着能更好地遵循用户意图。具体而言，大型模型经常生成不真实、有毒或对用户毫无帮助的输出，这是因为语言模型的训练目标（预测网页上的下一个 token）与用户希望的目标（'有用且安全地遵循指令'）是错位的。作者的目标是让模型在**'有用性'（Helpful）、'诚实性'（Honest）和'无害性'（Harmless）**这三个方面与用户意图对齐。

为了解决上述问题，论文提出使用人类反馈强化学习（RLHF）来微调 GPT-3，使其能遵循广泛的书面指令。该方法分为三个步骤展开：其中监督学习部分使用标注者编写的 prompt 和演示数据微调 GPT-3；奖励模型构建部分收集模型输出的排名数据，训练一个奖励模型；强化学习部分使用 PPO 算法，根据奖励模型的反馈进一步微调模型。

在 RLHF 过程中，模型在公共 NLP 数据集上的性能可能会下降。作者发现通过将 PPO 更新与预训练分布的对数似然更新混合（即 PPO-ptx 模型），可以大大减少这种性能衰退。经过 RLHF 的模型不仅符合训练它的标注者的偏好，也能很好地泛化到未参与训练数据的'保留（held-out）'标注者的偏好上，此外能够将'遵循指令'的能力泛化到其微调数据中很少见的任务上的潜力，例如非英语语言和代码相关的任务。

文章配图

方法与实验细节

从预训练语言模型，通过三个步骤使其与用户意图对齐。其中，步骤一监督微调（SFT）收集由人类标注者针对输入的 prompt 提供期望的输出行为，而后使用这些数据对预训练的 GPT-3 模型进行监督学习微调；步骤二训练奖励模型（RM）收集比较数据。对于同一个 prompt，模型生成多个输出，由人类标注者根据优劣进行排名，利用这些排名数据训练一个奖励模型，该模型的目标是预测人类更偏好哪个输出；步骤三强化学习（RL）使用 PPO 算法针对奖励模型优化策略，奖励模型的输出作为标量奖励，指导 SFT 模型进行微调，使其生成的输出能获得更高的奖励。

其中，RM 使用 6B 参数的模型，通过让标注者对 K 个（4 到 9 个）响应进行排名来提高效率，一次性训练所有组合比较对。RL 环境是一个'老虎机'（bandit）环境，给定 prompt 生成响应并获得奖励。为了防止模型过度优化奖励模型而偏离原始分布，在每个 token 上增加了 KL 散度惩罚。此外为了解决在公共 NLP 数据集上的性能退化问题，作者在 PPO 更新中混合了预训练梯度，由此得到的模型是 PPO-ptx。

关键技术细节

1. KL 散度

KL 散度（也称为相对熵）是衡量两个概率分布之间差异的一种非对称度量。它量化了当使用分布 Q 来近似真实分布 P 时所损失的信息量。对于离散概率分布 P 和 Q，其公式为：

$D_{KL}(P || Q) = \sum_{x} P(x) \log \left( \frac{P(x)}{Q(x)} \right)$

在 Instruct GPT 中，KL 散度的添加是为了防止强化学习模型在优化奖励模型时过拟合。具体而言，在强化学习的每一步，模型生成的最终奖励 R(x,y) 不仅仅是奖励模型给出的分数 r_\theta(x, y)，还减去了一个 KL 惩罚项：

$R(x, y) = r_\theta(x, y) - \beta \log \left( \frac{\pi^{RL}(y|x)}{\pi^{SFT}(y|x)} \right)$

论文解读：使用人类反馈训练语言模型遵循指令