论文阅读：Training language models to follow instructions with human feedback

优质文章学习记录

07 Apr 2026 — 6 min read

Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744.

引言

引言首先指出了当前大型语言模型（LMs）存在的一个核心问题：模型规模变大并不意味着它们能更好地遵循用户的意图。具体而言，大型模型经常生成不真实、有毒或对用户毫无帮助的输出，这是因为语言模型的训练目标（预测网页上的下一个 token）与用户希望的目标（“有用且安全地遵循指令”）是错位的。作者的目标是让模型在“有用性”（Helpful）、“诚实性”（Honest）和“无害性”（Harmless）这三个方面与用户意图对齐。

为了解决上述问题，论文提出使用人类反馈强化学习（RLHF）来微调 GPT-3，使其能遵循广泛的书面指令，该方法分为三个步骤展开，其中监督学习部分使用标注者编写的 prompt 和演示数据微调 GPT-3 ；奖励模型构建部分收集模型输出的排名数据，训练一个奖励模型；强化学习部分使用 PPO 算法，根据奖励模型的反馈进一步微调模型。

在 RLHF 过程中，模型在公共 NLP 数据集上的性能可能会下降。作者发现通过将 PPO 更新与预训练分布的对数似然更新混合（即 PPO-ptx 模型），可以大大减少这种性能衰退。经过RLHF的模型模型不仅符合训练它的标注者的偏好，也能很好地泛化到未参与训练数据的“保留（held-out）”标注者的偏好上，此外能够将“遵循指令”的能力泛化到其微调数据中很少见的任务上的潜力，例如非英语语言和代码相关的任务。

方法与实验细节

从预训练语言模型，通过三个步骤使其与用户意图对齐。其中，步骤一监督微调（SFT）收集由人类标注者针对输入的 prompt 提供期望的输出行为，而后使用这些数据对预训练的 GPT-3 模型进行监督学习微调；步骤二训练奖励模型（RM）收集比较数据。对于同一个 prompt，模型生成多个输出，由人类标注者根据优劣进行排名，利用这些排名数据训练一个奖励模型，该模型的目标是预测人类更偏好哪个输出；步骤三强化学习（RL）使用 PPO算法针对奖励模型优化策略，奖励模型的输出作为标量奖励，指导 SFT 模型进行微调，使其生成的输出能获得更高的奖励。

其中，RM使用6B参数的模型，通过让标注者对 K 个（4到9个）响应进行排名来提高效率，一次性训练所有

个比较对，RL环境是一个“老虎机”（bandit）环境，给定 prompt 生成响应并获得奖励，为了防止模型过度优化奖励模型而偏离原始分布，在每个 token 上增加了 KL 散度惩罚，此外为了解决在公共 NLP 数据集上的性能退化问题，作者在 PPO 更新中混合了预训练梯度，由此得到的模型是PPO-ptx

本部分需要补充的内容：

1.KL散度

KL 散度（也称为相对熵）是衡量两个概率分布之间差异的一种非对称度量。它量化了当使用分布 Q来近似真实分布P时所损失的信息量。对于离散概率分布P和Q，其公式为：

D_{KL}(P || Q) = \sum_{x} P(x) \log \left( \frac{P(x)}{Q(x)} \right)

，在Instruct GPT中，KL散度的添加是为了为了防止强化学习模型在优化奖励模型时过拟合，具体而言，在强化学习的每一步，模型生成的最终奖励R(x,y)不仅仅是奖励模型给出的分数

，还减去了一个 KL 惩罚项：

R(x, y) = r_\theta(x, y) - \beta \log \left( \frac{\pi^{RL}(y|x)}{\pi^{SFT}(y|x)} \right)

，其中带有RL/SFT上标的分别为当前正在训练的强化学习模型的输出概率和原始监督微调模型的输出概率。

注意，这里是RL模型根据提示词生成一个完整的回复序列，而后计算自己生成每个token yt的概率

，而后将完全相同的序列输入SFT模型中，计算“如果是我，生成这个token yt的概率是多少”，即

，所以这里不存在长度不一致的问题，因而KL散度可以进行计算。

2.如何在更新中混合预训练梯度

作者发现单纯使用 RLHF（即只优化人类偏好奖励）会导致模型在公共 NLP 数据集（如问答、阅读理解等）上的性能下降，这种现象被称为“对齐税”。因此作者在在进行PPO梯度更新的同时，混合了预训练梯度的更新，训练的目标函数变成了一个组合目标：既要最大化人类偏好奖励（PPO 目标），又要最大化预训练数据分布的对数似然。总的优化目标函数可以表示为：

\text{Objective} = \text{Objective}_{PPO} + \gamma \cdot \mathbb{E}_{x \sim D_{pretrain}} [\log \pi(x)]

，其中

是包含KL惩罚的标准的强化学习目标，

\gamma \cdot \mathbb{E}_{x \sim D_{pretrain}} [\log \pi(x)]

这是预训练损失项，

是原始的预训练数据集。【这里说人话就是在训练 PPO 的同时，随机抽取一些原始的预训练文本让模型填空（相当于重复预训练过程），并将这部分的损失纳入PPO的优化指标】

万字长文：重点区域低空安全防御系统（反无人机）深度实战方案 | 从0到1构建立体安防体系（WORD）

摘要：随着低空经济爆发式增长，无人机"黑飞"已成为国家重点区域安防的重大威胁。本文基于真实政务项目案例，深度解析一套覆盖"探测-识别-定位-反制-溯源"全链条的低空安全防御系统建设方案。全文8000+字，涵盖TDOA无源定位、相控阵雷达、导航诱骗等核心技术，以及等保2.0合规、电磁频谱安全等实施细节，为安防系统集成商、智慧城市建设者提供保姆级技术参考。一、项目背景与战略价值：低空经济背后的安全缺口 1.1 低空经济崛起的"双刃剑"效应近年来，随着《"十四五"数字经济发展规划》的深入推进，低空经济已被纳入国家战略性新兴产业序列。无人机在物流配送、电力巡检、应急救援、城市测绘等领域的应用呈现爆发式增长。据统计，截至2025年初，我国民用无人机保有量已突破500万架，年飞行时长超过数千万小时。然而，

探索React与Microi吾码的完美结合：快速搭建项目，低代码便捷开发教程

一、摘要在当今的数字化时代，软件开发就像是一场探险，每个开发者都是探险家，探索着代码的奥秘。React作为前端开发的领军框架，其组件化和高效的渲染机制为开发者提供了强大的工具。而Microi吾码低代码平台的出现，则为这一探险之旅提供了捷径，让开发者能够以更低的成本、更快的速度构建出复杂的应用。本文将带领大家深入了解如何在React项目中使用Microi吾码，实现低代码开发的便捷与高效。二、Microi吾码介绍 2.1 功能介绍 * 低代码开发：通过拖拽式界面设计，减少代码编写，提升开发效率。 * 组件丰富：提供大量预设组件，满足各种业务需求。 * 跨平台支持：适用于Web、移动端、小程序等多种平台。 * 灵活扩展：支持自定义组件和API，满足个性化需求。 2.2 团队介绍 * 研发团队：由经验丰富的开发者组成，专注于低代码平台的研发与优化。 * 客户支持：提供专业的技术支持和培训服务，确保用户顺利上手。 2.3 上线项目案例 * 电商平台：快速搭建了功能完整的电商系统，支持商品管理、订单处理等。 * 企业管理系统：

OpenClaw基础-3-telegram机器人配置与加入群聊

OpenClaw基础-3-telegram机器人配置与加入群聊 💡 大家好，我是可夫小子，《小白玩转ChatGPT》专栏作者，关注AI编程、AI自动化和自媒体。 Openclaw的优势是接入各种聊天工作，在前面的文章里，已经介绍了如何接入飞书。但之前我也提到了，飞书的最大的问题是请求多的限制，以及无法在非认证企业账号下面组建群聊。但这些限制另一个聊天工具可以打破，那就是Telegram，今天就跟大家分享一下，如果在OpenClaw里面接入Telegram。第一步：Openclaw端配置通过命令openclaw config，local→channels→telegrams 这里等待输入API Token，接下来我们去Telegram里面获取第二步：Telegram端配置 1. 1. 在聊天窗口找到BotFather，打开对话与他私聊 2. 3. 然后再输入一个机器人，再输入一个账号名username，这里面要求以Bot或者Bot结尾，这个是全网的id，要 2. /newbot 来创建一个机器人，输入一个名字name

【FPGA】Vivado 保姆级安装教程 | 从官网下载安装包开始到安装完毕 | 每步都有详细截图说明 | 支持无脑跟装

安装包下载：Xilinx_Vivado Download Link（下好后可直接安装）目录（有安装包后，可直接跳转至 Step5，免得去官网下了，比较麻烦） Step1：进入官网 Step2：注册账号 Step3：进入下载页面 Step4：下载安装包 Step5：安装 Step6：等待软件安装完成安装完成 Step1：进入官网 ① 我们可以选择在 XILINX 官网下载其公司旗下的产品 Vivado 🔍 官网地址：www.xilinx.com （英文）www.china.xilinx.com （官方中文网站） 👉 点击直达：Xilinx - Adaptable. Intelligent | together we advance_ （英文）

Read more

万字长文：重点区域低空安全防御系统（反无人机）深度实战方案 | 从0到1构建立体安防体系（WORD）

探索React与Microi吾码的完美结合：快速搭建项目，低代码便捷开发教程

OpenClaw基础-3-telegram机器人配置与加入群聊

【FPGA】Vivado 保姆级安装教程 | 从官网下载安装包开始到安装完毕 | 每步都有详细截图说明 | 支持无脑跟装