论文阅读：Training language models to follow instructions with human feedback

优质文章学习记录

10 Apr 2026 — 6 min read

Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744.

引言

引言首先指出了当前大型语言模型（LMs）存在的一个核心问题：模型规模变大并不意味着它们能更好地遵循用户的意图。具体而言，大型模型经常生成不真实、有毒或对用户毫无帮助的输出，这是因为语言模型的训练目标（预测网页上的下一个 token）与用户希望的目标（“有用且安全地遵循指令”）是错位的。作者的目标是让模型在“有用性”（Helpful）、“诚实性”（Honest）和“无害性”（Harmless）这三个方面与用户意图对齐。

为了解决上述问题，论文提出使用人类反馈强化学习（RLHF）来微调 GPT-3，使其能遵循广泛的书面指令，该方法分为三个步骤展开，其中监督学习部分使用标注者编写的 prompt 和演示数据微调 GPT-3 ；奖励模型构建部分收集模型输出的排名数据，训练一个奖励模型；强化学习部分使用 PPO 算法，根据奖励模型的反馈进一步微调模型。

在 RLHF 过程中，模型在公共 NLP 数据集上的性能可能会下降。作者发现通过将 PPO 更新与预训练分布的对数似然更新混合（即 PPO-ptx 模型），可以大大减少这种性能衰退。经过RLHF的模型模型不仅符合训练它的标注者的偏好，也能很好地泛化到未参与训练数据的“保留（held-out）”标注者的偏好上，此外能够将“遵循指令”的能力泛化到其微调数据中很少见的任务上的潜力，例如非英语语言和代码相关的任务。

方法与实验细节

从预训练语言模型，通过三个步骤使其与用户意图对齐。其中，步骤一监督微调（SFT）收集由人类标注者针对输入的 prompt 提供期望的输出行为，而后使用这些数据对预训练的 GPT-3 模型进行监督学习微调；步骤二训练奖励模型（RM）收集比较数据。对于同一个 prompt，模型生成多个输出，由人类标注者根据优劣进行排名，利用这些排名数据训练一个奖励模型，该模型的目标是预测人类更偏好哪个输出；步骤三强化学习（RL）使用 PPO算法针对奖励模型优化策略，奖励模型的输出作为标量奖励，指导 SFT 模型进行微调，使其生成的输出能获得更高的奖励。

其中，RM使用6B参数的模型，通过让标注者对 K 个（4到9个）响应进行排名来提高效率，一次性训练所有

个比较对，RL环境是一个“老虎机”（bandit）环境，给定 prompt 生成响应并获得奖励，为了防止模型过度优化奖励模型而偏离原始分布，在每个 token 上增加了 KL 散度惩罚，此外为了解决在公共 NLP 数据集上的性能退化问题，作者在 PPO 更新中混合了预训练梯度，由此得到的模型是PPO-ptx

本部分需要补充的内容：

1.KL散度

KL 散度（也称为相对熵）是衡量两个概率分布之间差异的一种非对称度量。它量化了当使用分布 Q来近似真实分布P时所损失的信息量。对于离散概率分布P和Q，其公式为：

D_{KL}(P || Q) = \sum_{x} P(x) \log \left( \frac{P(x)}{Q(x)} \right)

，在Instruct GPT中，KL散度的添加是为了为了防止强化学习模型在优化奖励模型时过拟合，具体而言，在强化学习的每一步，模型生成的最终奖励R(x,y)不仅仅是奖励模型给出的分数

，还减去了一个 KL 惩罚项：

R(x, y) = r_\theta(x, y) - \beta \log \left( \frac{\pi^{RL}(y|x)}{\pi^{SFT}(y|x)} \right)

，其中带有RL/SFT上标的分别为当前正在训练的强化学习模型的输出概率和原始监督微调模型的输出概率。

注意，这里是RL模型根据提示词生成一个完整的回复序列，而后计算自己生成每个token yt的概率

，而后将完全相同的序列输入SFT模型中，计算“如果是我，生成这个token yt的概率是多少”，即

，所以这里不存在长度不一致的问题，因而KL散度可以进行计算。

2.如何在更新中混合预训练梯度

作者发现单纯使用 RLHF（即只优化人类偏好奖励）会导致模型在公共 NLP 数据集（如问答、阅读理解等）上的性能下降，这种现象被称为“对齐税”。因此作者在在进行PPO梯度更新的同时，混合了预训练梯度的更新，训练的目标函数变成了一个组合目标：既要最大化人类偏好奖励（PPO 目标），又要最大化预训练数据分布的对数似然。总的优化目标函数可以表示为：

\text{Objective} = \text{Objective}_{PPO} + \gamma \cdot \mathbb{E}_{x \sim D_{pretrain}} [\log \pi(x)]

，其中

是包含KL惩罚的标准的强化学习目标，

\gamma \cdot \mathbb{E}_{x \sim D_{pretrain}} [\log \pi(x)]

这是预训练损失项，

是原始的预训练数据集。【这里说人话就是在训练 PPO 的同时，随机抽取一些原始的预训练文本让模型填空（相当于重复预训练过程），并将这部分的损失纳入PPO的优化指标】

论文阅读--Agent AI 探索多模态交互的前沿领域（一）

这篇文章是近来介绍 Agent AI 非常全面的一篇综述，围绕多模态交互与通用人工智能（AGI）的发展需求展开，融合了学术研究积累、技术突破与行业应用诉求。整篇文章的结构如下：摘要多模态人工智能系统有望在我们的日常生活中普及。让这些系统具备更强交互性的一个有效途径，是将其作为智能体（Agent）嵌入物理与虚拟环境中。目前，现有系统以大型基础模型为核心构建模块来打造具象化智能体（embodied agents）。将智能体嵌入此类环境，能助力模型处理和解读视觉信息与上下文数据 —— 这对于开发更复杂、更具上下文感知能力的人工智能系统至关重要。例如，一个能够感知用户动作、人类行为、环境物体、音频表达及场景整体情绪的系统，可用于指导智能体在特定环境中做出合理响应。为推动基于智能体的多模态智能研究，本文将 “智能体人工智能（Agent AI）” 定义为一类交互式系统：这类系统能够感知视觉刺激、语言输入及其他基于环境的数据，并能产生有意义的具象化动作。具体而言，我们探索的系统旨在通过整合外部知识、多感官输入和人类反馈，基于 “下一具象化动作预测” 来优化智能体性能。我们认为，通过在真实

区块链|WEB3：时间长河共识算法（Time River Consensus Algorithm）

区块链|WEB3：时间长河共识算法（Time River Consensus Algorithm）（原命名为时间证明公式算法（TCC））本共识算法以「时间长河」为核心设计理念，通过时间节点服务器按固定最小时间间隔打包区块，构建不可篡改的历史数据链，兼顾区块链的金融属性与信用属性，所有优化机制形成完整闭环，无核心逻辑漏洞，具体总结如下：一、核心机制（闭环无漏洞） 1. 节点准入与初始化：候选时间节点需先完成全链质押，首个时间节点由所有质押节点投票选举产生，彻底杜绝系统指定带来的初始中心化问题，实现去中心化初始化。 2. 时间节点推导与防作弊：下一任时间节点通过共同随机数算法从上一区块推导（输入参数：上一区块哈希、时间戳、固定数据顺序），推导规则公开可验证；时间节点需对数据顺序签名，任一节点发现作弊（篡改签名、操控随机数等），该节点立即失去时间节点资格并扣除全部质押。质押的核心目的是防止节点为持续获取区块打包奖励作弊，作弊损失远大于收益，确保共同随机数推导百分百不可作弊。 3. 节点容错机制：每个时间节点均配置一组合规质押节点构成的左侧顺邻节点队列（队列长度可随全网节点规

使用trae进行本地ai对话机器人的构建

前言在人工智能技术快速发展的今天，构建本地AI对话机器人已成为开发者和技术爱好者的热门选择。使用 trae可以高效地实现这一目标，确保数据隐私和响应速度。本文将详细介绍如何利用 Trae 搭建本地AI对话机器人，涵盖环境配置、模型加载、对话逻辑实现以及优化技巧，帮助读者从零开始构建一个功能完整的AI助手。本地化AI对话机器人的优势在于完全离线运行，避免网络延迟和数据泄露风险，同时支持自定义训练模型以适应特定场景需求。无论是用于个人助理、客服系统，还是智能家居控制，Trae 都能提供灵活的解决方案。获取api相关信息打开蓝耘进行登录，如果你是新人的话需要进行注册操作，输入你相关的信息就能进行注册成功在平台顶部导航栏可以看到Maas平台，点击进入模型广场来到模型广场可以看到很多的ai模型，比如就有我们的kimi k2模型点击进去可以看到kimi k2模型的相关信息，我们将模型的id进行复制，等会儿我们是要用到的 /maas/kimi/Kimi-K2-Instruct 并且这里还具有在线体验的功能，生成回答速度快 https://archive.

Windows 安装 Neo4j（2025最新·极简）

目录 1. 准备 2. 下载安装包 3. 一键安装 4. 启动 Neo4j 5.安装 Neo4j 的系统服务 Neo4j 是目前最流行的原生图数据库，用图结构（节点-关系-属性）存储数据，而非传统表结构。它专为海量关联数据设计，提供： * 原生图存储：基于免索引邻接结构，每个节点直接维护指向相邻节点的物理指针，实现 O(1) 时间复杂度的图遍历。 * Cypher 查询语言：ISO 标准化图查询语言，采用 ASCII-Art 模式匹配语法，支持可变长度路径、子图查询、聚合与更新混合事务。 * ACID 事务：支持完整事务、集群高可用，可承载企业级负载。 * 丰富生态：内置 Graph Data Science (GDS)

Read more

论文阅读--Agent AI 探索多模态交互的前沿领域（一）

区块链|WEB3：时间长河共识算法（Time River Consensus Algorithm）

使用trae进行本地ai对话机器人的构建

Windows 安装 Neo4j（2025最新·极简）