论文阅读：Training language models to follow instructions with human feedback

优质文章学习记录

11 Apr 2026 — 6 min read

Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744.

引言

引言首先指出了当前大型语言模型（LMs）存在的一个核心问题：模型规模变大并不意味着它们能更好地遵循用户的意图。具体而言，大型模型经常生成不真实、有毒或对用户毫无帮助的输出，这是因为语言模型的训练目标（预测网页上的下一个 token）与用户希望的目标（“有用且安全地遵循指令”）是错位的。作者的目标是让模型在“有用性”（Helpful）、“诚实性”（Honest）和“无害性”（Harmless）这三个方面与用户意图对齐。

为了解决上述问题，论文提出使用人类反馈强化学习（RLHF）来微调 GPT-3，使其能遵循广泛的书面指令，该方法分为三个步骤展开，其中监督学习部分使用标注者编写的 prompt 和演示数据微调 GPT-3 ；奖励模型构建部分收集模型输出的排名数据，训练一个奖励模型；强化学习部分使用 PPO 算法，根据奖励模型的反馈进一步微调模型。

在 RLHF 过程中，模型在公共 NLP 数据集上的性能可能会下降。作者发现通过将 PPO 更新与预训练分布的对数似然更新混合（即 PPO-ptx 模型），可以大大减少这种性能衰退。经过RLHF的模型模型不仅符合训练它的标注者的偏好，也能很好地泛化到未参与训练数据的“保留（held-out）”标注者的偏好上，此外能够将“遵循指令”的能力泛化到其微调数据中很少见的任务上的潜力，例如非英语语言和代码相关的任务。

方法与实验细节

从预训练语言模型，通过三个步骤使其与用户意图对齐。其中，步骤一监督微调（SFT）收集由人类标注者针对输入的 prompt 提供期望的输出行为，而后使用这些数据对预训练的 GPT-3 模型进行监督学习微调；步骤二训练奖励模型（RM）收集比较数据。对于同一个 prompt，模型生成多个输出，由人类标注者根据优劣进行排名，利用这些排名数据训练一个奖励模型，该模型的目标是预测人类更偏好哪个输出；步骤三强化学习（RL）使用 PPO算法针对奖励模型优化策略，奖励模型的输出作为标量奖励，指导 SFT 模型进行微调，使其生成的输出能获得更高的奖励。

其中，RM使用6B参数的模型，通过让标注者对 K 个（4到9个）响应进行排名来提高效率，一次性训练所有

个比较对，RL环境是一个“老虎机”（bandit）环境，给定 prompt 生成响应并获得奖励，为了防止模型过度优化奖励模型而偏离原始分布，在每个 token 上增加了 KL 散度惩罚，此外为了解决在公共 NLP 数据集上的性能退化问题，作者在 PPO 更新中混合了预训练梯度，由此得到的模型是PPO-ptx

本部分需要补充的内容：

1.KL散度

KL 散度（也称为相对熵）是衡量两个概率分布之间差异的一种非对称度量。它量化了当使用分布 Q来近似真实分布P时所损失的信息量。对于离散概率分布P和Q，其公式为：

D_{KL}(P || Q) = \sum_{x} P(x) \log \left( \frac{P(x)}{Q(x)} \right)

，在Instruct GPT中，KL散度的添加是为了为了防止强化学习模型在优化奖励模型时过拟合，具体而言，在强化学习的每一步，模型生成的最终奖励R(x,y)不仅仅是奖励模型给出的分数

，还减去了一个 KL 惩罚项：

R(x, y) = r_\theta(x, y) - \beta \log \left( \frac{\pi^{RL}(y|x)}{\pi^{SFT}(y|x)} \right)

，其中带有RL/SFT上标的分别为当前正在训练的强化学习模型的输出概率和原始监督微调模型的输出概率。

注意，这里是RL模型根据提示词生成一个完整的回复序列，而后计算自己生成每个token yt的概率

，而后将完全相同的序列输入SFT模型中，计算“如果是我，生成这个token yt的概率是多少”，即

，所以这里不存在长度不一致的问题，因而KL散度可以进行计算。

2.如何在更新中混合预训练梯度

作者发现单纯使用 RLHF（即只优化人类偏好奖励）会导致模型在公共 NLP 数据集（如问答、阅读理解等）上的性能下降，这种现象被称为“对齐税”。因此作者在在进行PPO梯度更新的同时，混合了预训练梯度的更新，训练的目标函数变成了一个组合目标：既要最大化人类偏好奖励（PPO 目标），又要最大化预训练数据分布的对数似然。总的优化目标函数可以表示为：

\text{Objective} = \text{Objective}_{PPO} + \gamma \cdot \mathbb{E}_{x \sim D_{pretrain}} [\log \pi(x)]

，其中

是包含KL惩罚的标准的强化学习目标，

\gamma \cdot \mathbb{E}_{x \sim D_{pretrain}} [\log \pi(x)]

这是预训练损失项，

是原始的预训练数据集。【这里说人话就是在训练 PPO 的同时，随机抽取一些原始的预训练文本让模型填空（相当于重复预训练过程），并将这部分的损失纳入PPO的优化指标】

提升开发效率：如何在VsCode中完美配置GitHub Copilot（含settings.json详解）

提升开发效率：VsCode与GitHub Copilot深度集成实战指南在代码编辑器的演进历程中，GitHub Copilot的出现无疑是一次革命性的突破。作为AI驱动的编程助手，它正在改变开发者与代码交互的方式。但很多用户仅仅停留在基础功能的使用层面，未能充分发挥其潜力。本文将带你深入探索如何通过精细配置settings.json文件，让Copilot真正成为你的编码"副驾驶"。 1. 环境准备与基础配置在开始高级配置之前，确保你的开发环境已经做好充分准备。首先需要检查VsCode的版本是否在1.60以上，这是支持Copilot所有功能的最低要求。同时，建议安装最新版本的Git，因为Copilot的部分功能会与版本控制系统深度交互。安装Copilot扩展非常简单： 1. 在VsCode中按下Ctrl+Shift+X(Windows/Linux)或Cmd+Shift+X(Mac)打开扩展面板 2. 搜索"GitHub Copilot" 3. 点击安装按钮安装完成后，你会注意到编辑器右下角出现Copilot的图标。点击它并完成GitHub账号授权是使用服务的前

Whisper-WebUI语音转文字工具：从零部署到高效使用的完整指南

Whisper-WebUI语音转文字工具：从零部署到高效使用的完整指南【免费下载链接】Whisper-WebUI 项目地址: https://gitcode.com/gh_mirrors/wh/Whisper-WebUI 引言与项目概述在人工智能快速发展的今天，语音识别技术正逐渐成为我们日常生活和工作中不可或缺的工具。Whisper-WebUI作为基于OpenAI Whisper模型的开源项目，为普通用户提供了简单易用的语音转文字解决方案。无论你是内容创作者、学生还是商务人士，这款工具都能帮助你轻松处理音频文件，将语音内容转化为可编辑的文本。核心功能亮点 Whisper-WebUI拥有多项强大功能，使其在众多语音识别工具中脱颖而出：多格式音频支持 * 支持MP3、WAV、FLAC等常见音频格式 * 兼容视频文件中的音频轨道提取 * 实时语音输入转录功能智能识别能力 * 自动检测多种语言和方言 * 智能识别说话人角色 * 准确的时间戳标记用户友好界面 * 直观的Web操作界面 * 批量文件处理能力 * 实时进度显示快速上手指南

Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码【AI辅助开发系列】

🎀🎀🎀【AI辅助编程系列】🎀🎀🎀 1. Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码 2. Visual Studio 安装和管理 GitHub Copilot 3. Visual Studio 使用 GitHub Copilot 扩展 4. Visual Studio 使用 GitHub Copilot 聊天 5. Visual Studio 使用 GitHub Copilot 协助调试 6. Visual Studio 使用 IntelliCode AI 辅助代码开发 7. Visual Studio 玩转 IntelliCode AI辅助开发

win10升级后总会弹出365 Copilot窗口如何禁用和关闭

win10升级后总会弹出365 Copilot窗口如何禁用和关闭在Windows 10中，可以通过以下几种方法禁用或关闭Microsoft 365 Copilot：方法一：任务栏上直接禁用 1. 右键点击任务栏。 2. 在弹出的菜单中，找到并取消勾选“显示 Copilot（预览版）按钮”选项。这种方法只是让Copilot不再显示在任务栏上，但并未彻底禁用该功能。用户仍然可以通过“Windows 键 + C”键盘快捷键来打开和关闭Copilot界面。方法二：利用组策略彻底禁用 1. 打开开始菜单，搜索“组策略”并打开组策略编辑器。 2. 按照“用户配置 > 管理模板 > Windows 组件 > Windows Copilot”的路径依次展开。 3. 双击“关闭 Windows Copilot”

Read more

提升开发效率：如何在VsCode中完美配置GitHub Copilot（含settings.json详解）

Whisper-WebUI语音转文字工具：从零部署到高效使用的完整指南

Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码 【AI辅助开发系列】

win10升级后总会弹出365 Copilot窗口如何禁用和关闭

Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码【AI辅助开发系列】