论文阅读:Training language models to follow instructions with human feedback

Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744.

引言

引言首先指出了当前大型语言模型(LMs)存在的一个核心问题:模型规模变大并不意味着它们能更好地遵循用户的意图 。具体而言,大型模型经常生成不真实、有毒或对用户毫无帮助的输出,这是因为语言模型的训练目标(预测网页上的下一个 token)与用户希望的目标(“有用且安全地遵循指令”)是错位的。作者的目标是让模型在“有用性”(Helpful)、“诚实性”(Honest)和“无害性”(Harmless)这三个方面与用户意图对齐。

为了解决上述问题,论文提出使用人类反馈强化学习(RLHF)来微调 GPT-3,使其能遵循广泛的书面指令,该方法分为三个步骤展开,其中监督学习部分使用标注者编写的 prompt 和演示数据微调 GPT-3 ;奖励模型构建部分收集模型输出的排名数据,训练一个奖励模型;强化学习部分使用 PPO 算法,根据奖励模型的反馈进一步微调模型。

在 RLHF 过程中,模型在公共 NLP 数据集上的性能可能会下降。作者发现通过将 PPO 更新与预训练分布的对数似然更新混合(即 PPO-ptx 模型),可以大大减少这种性能衰退。经过RLHF的模型模型不仅符合训练它的标注者的偏好,也能很好地泛化到未参与训练数据的“保留(held-out)”标注者的偏好上,此外能够将“遵循指令”的能力泛化到其微调数据中很少见的任务上的潜力,例如非英语语言和代码相关的任务。

方法与实验细节

从预训练语言模型,通过三个步骤使其与用户意图对齐。其中,步骤一监督微调(SFT)收集由人类标注者针对输入的 prompt 提供期望的输出行为,而后使用这些数据对预训练的 GPT-3 模型进行监督学习微调;步骤二训练奖励模型(RM)收集比较数据。对于同一个 prompt,模型生成多个输出,由人类标注者根据优劣进行排名,利用这些排名数据训练一个奖励模型,该模型的目标是预测人类更偏好哪个输出;步骤三强化学习(RL)使用 PPO算法针对奖励模型优化策略,奖励模型的输出作为标量奖励,指导 SFT 模型进行微调,使其生成的输出能获得更高的奖励。

其中,RM使用6B参数的模型,通过让标注者对 K 个(4到9个)响应进行排名来提高效率,一次性训练所有

\binom{K}{2}

个比较对,RL环境是一个“老虎机”(bandit)环境,给定 prompt 生成响应并获得奖励,为了防止模型过度优化奖励模型而偏离原始分布,在每个 token 上增加了 KL 散度惩罚,此外为了解决在公共 NLP 数据集上的性能退化问题,作者在 PPO 更新中混合了预训练梯度,由此得到的模型是PPO-ptx


本部分需要补充的内容:

1.KL散度

KL 散度(也称为相对熵)是衡量两个概率分布之间差异的一种非对称度量。它量化了当使用分布 Q来近似真实分布P时所损失的信息量。对于离散概率分布P和Q,其公式为:

D_{KL}(P || Q) = \sum_{x} P(x) \log \left( \frac{P(x)}{Q(x)} \right)

,在Instruct GPT中,KL散度的添加是为了为了防止强化学习模型在优化奖励模型时过拟合,具体而言,在强化学习的每一步,模型生成的最终奖励R(x,y)不仅仅是奖励模型给出的分数

r_\theta(x, y)

,还减去了一个 KL 惩罚项:

R(x, y) = r_\theta(x, y) - \beta \log \left( \frac{\pi^{RL}(y|x)}{\pi^{SFT}(y|x)} \right)

,其中带有RL/SFT上标的分别为当前正在训练的强化学习模型的输出概率和原始监督微调模型的输出概率。

注意,这里是RL模型根据提示词生成一个完整的回复序列,而后计算自己生成每个token yt的概率

P_{RL}(y_t | x, y_{<t})

,而后将完全相同的序列输入SFT模型中,计算“如果是我,生成这个token yt的概率是多少”,即

P_{SFT}(y_t | x, y_{<t})

,所以这里不存在长度不一致的问题,因而KL散度可以进行计算。

2.如何在更新中混合预训练梯度

作者发现单纯使用 RLHF(即只优化人类偏好奖励)会导致模型在公共 NLP 数据集(如问答、阅读理解等)上的性能下降,这种现象被称为“对齐税”。因此作者在在进行PPO梯度更新的同时,混合了预训练梯度的更新,训练的目标函数变成了一个组合目标:既要最大化人类偏好奖励(PPO 目标),又要最大化预训练数据分布的对数似然。总的优化目标函数可以表示为:

\text{Objective} = \text{Objective}_{PPO} + \gamma \cdot \mathbb{E}_{x \sim D_{pretrain}} [\log \pi(x)]

,其中

\text{Objective}_{PPO}

是包含KL惩罚的标准的强化学习目标,

\gamma \cdot \mathbb{E}_{x \sim D_{pretrain}} [\log \pi(x)]

这是预训练损失项,

D_{pretrain}

是原始的预训练数据集。【这里说人话就是在训练 PPO 的同时,随机抽取一些原始的预训练文本让模型填空(相当于重复预训练过程),并将这部分的损失纳入PPO的优化指标】


Read more

科研绘图效率提升实践:5款AI工具对比测评(含电路图/仿真图生成实测)

科研绘图效率提升实践:5款AI工具对比测评(含电路图/仿真图生成实测)

1. 引言(1–2段) ✅ 合规示范: “在科研工作中,高质量图表(如电路结构图、仿真结果图、系统框图)是论文与报告的核心表达载体。传统绘图依赖专业软件(如LTspice、MATLAB、Origin、Visio),存在学习成本高、修改耗时等问题。近年来,部分AI辅助绘图工具开始支持技术图形生成与优化。本文从功能性、易用性、输出质量三方面,实测5款主流AI绘图工具在科研场景下的表现,并提供可复现的操作流程参考。” ⚠️ 避坑提醒: * ❌ 禁用:“再也不用手动画图!”“导师看完直呼内行” → 违反 7.1.1 夸张/情绪化 * ✅ 强调“辅助”“参考”“实测”,不承诺“替代专业软件” → 避免误导(7.2.2) 2. 测评维度说明(技术导向) 输入方式 支持文本描述?

CHATERM AI:开启云资源氛围管理新篇章!

CHATERM AI:开启云资源氛围管理新篇章!

合合信息近日正式发布开源项目——云资源智能管理终端Chaterm,这是一款AI AGENT终端工具,旨在通过自然语言的终端交互,增强开发者的工作效率。 与OpenAI Codex等本地CLI不同的是,合合信息Chaterm工具可以通过SSH连接,批量管理远端的服务器,甚至大规模的线上集群。 这使得开发者可以轻松地管理数千台云端主机,高效地完成云端服务构建,部署,甚至服务器之间关联问题的排查。 用户再也无需学习复杂的正则表达式,Perl脚本,Linux系统命令,和SQL语法即可轻松构建在线服务。 通过Chaterm,无需在终端上安装fish或者zsh,无需Root权限,用户也可以配置全局的个性化语法高亮和智能命令补全! Demo 展示 demo 核心功能 * 智能Agent:用户可以用自然语言的方式,高效管理服务器,数据库,K8S等云端资源。Chaterm支持Command与Agent两种模式,Command模式的定位是用户辅助,类似于辅助驾驶,是AI辅助人来生成指令,在当前已有的终端会话中执行命令。Agent模式相当于智能驾驶,由人提供目标,AI自己规划分析然后逐步实

用微信指挥你的 AI 员工:QClaw 给普通人发了一张超级个体的入场券

用微信指挥你的 AI 员工:QClaw 给普通人发了一张超级个体的入场券

昨晚,深圳龙岗区相关部门发布了《深圳市龙岗区支持 OpenClaw&OPC 发展的若干措施(征求意见稿)》公开征询意见公告,也就是大家常说的"龙虾十条"。 大家好,我是小虎。 但当一个地方政府开始为一个开源 AI 项目立专项扶持政策,通常意味着:这件事已经大到用市场语言说不清楚了,必须用政策语言来背书。 OpenClaw 是奥地利开发者 Peter Steinberger 创造的一个开源本地 AI Agent 框架,核心逻辑是把 AI 助手部署在你自己的机器上,通过 Telegram、WhatsApp 这些聊天工具接收指令,然后帮你执行任务。 数据留在本地,算力用自己的,7×24 小时待命。 这个逻辑本身非常先进——但它有一个致命门槛:你得先把它跑起来。 买服务器、命令行配置、设置机器人权限……整个流程对普通人来说不是学习曲线,是一道墙。

作为一名市场运营,我的“养虾”初体验:上手JiuwenClaw,让AI智能体真的“越用越懂我”

作为一名市场运营,我的“养虾”初体验:上手JiuwenClaw,让AI智能体真的“越用越懂我”

一、前言 最近,AI Agent(智能体)的概念非常火,但很多产品要么部署复杂,要么用起来像个死板的“工具人”。作为一名市场运营,在看到openJiuwen社区发布了基于Python开发的“小龙虾” JiuwenClaw,并宣称它能“懂你所想,自主演进”后,我决定亲自试一试,看看这只“龙虾”到底有什么特别之处。 二、🚀 丝滑开局:一行命令,即刻“养虾” 第一个惊喜来自安装。正如项目介绍里说的,整个过程确实非常简单。我没有遇到任何依赖冲突或繁琐的配置,在终端敲下几行命令,就完成了从安装到启动的全过程: # 创建名为 JiuwenClaw 的虚拟环境python -m venv jiuwenclaw# 激活 JiuwenClaw 虚拟环境(选择对应系统)jiuwenclaw\Scripts\activate # Windowssource jiuwenclaw/bin/activate