基于人类反馈的强化学习(RLHF)全解析
基于人类反馈的强化学习(RLHF)通过引入人类偏好优化大模型输出。其核心框架包含强化学习算法、行动、环境、观察和奖励机制。InstructGPT 训练分为三个阶段:监督微调(SFT)、奖励模型训练(RM)及 PPO 策略优化。该方法解决了传统训练在主观任务上的局限性,使模型更贴合人类意图。本文详细解析了 RLHF 的技术原理、实施步骤、PPO 与 KL 散度约束机制以及面临的挑战与最佳实践。

基于人类反馈的强化学习(RLHF)通过引入人类偏好优化大模型输出。其核心框架包含强化学习算法、行动、环境、观察和奖励机制。InstructGPT 训练分为三个阶段:监督微调(SFT)、奖励模型训练(RM)及 PPO 策略优化。该方法解决了传统训练在主观任务上的局限性,使模型更贴合人类意图。本文详细解析了 RLHF 的技术原理、实施步骤、PPO 与 KL 散度约束机制以及面临的挑战与最佳实践。

随着大型语言模型(LLM)的快速发展,如何使这些模型更好地理解和满足人类的需求成为了一个关键问题。传统的训练方法往往依赖于大规模的语料库和基于规则的损失函数,但这在处理复杂、主观和依赖上下文的任务时存在局限性。因此,基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)应运而生,为模型的训练提供了一种新的思路。

基于人类反馈的强化学习(RLHF),是一种将人类反馈与强化学习相结合的方法,旨在通过引入人类偏好来优化模型的行为和输出。在 RLHF 中,人类的偏好被用作奖励信号,以指导模型的训练过程,从而增强模型对人类意图的理解和满足程度。这种方法使得模型能够更自然地与人类进行交互,并生成更符合人类期望的输出。
基于人类反馈的强化学习框架是一个复杂但高效的系统,包括强化学习算法、行动、环境、观察和奖励机制。
在 RLHF 框架中,常用的强化学习算法之一是近端策略优化(Proximal Policy Optimization, PPO)。PPO 是一种用于训练代理的'on-policy'算法,它直接学习和更新当前策略,而不是从过去的经验中学习。相比其他算法,PPO 在稳定性与样本效率之间取得了较好的平衡,适合处理高维动作空间的语言生成任务。
在 RLHF 框架中,行动指的是语言模型根据给定的提示(prompt)生成的输出文本。这些输出文本是模型在尝试完成特定任务或响应特定指令时产生的。行动空间(Action Space)是词表所有 token(可以简单理解为词语)在所有输出位置的排列组合。由于语言生成的序列特性,这是一个巨大的离散空间。
在 RLHF 中,环境是代理(即我们的语言模型)与之交互的外部世界,它提供了代理可以观察的状态、执行的动作以及根据这些动作给予的奖励。
在 RLHF 框架中,观察指的是模型在生成输出文本时所接受到的输入提示(prompt)。这些提示是模型尝试完成任务的依据,也是模型进行决策和行动的基础。观察空间(Observation Space)是可能输入的 token 序列,即 Prompt。
奖励机制是 RLHF 框架中的核心组成部分之一。它基于奖励模型对人类偏好的预测来给予模型奖励或惩罚。它需要使用大量的人类反馈数据来进行训练,以确保能够准确地预测人类对不同输出的偏好。这些数据通常通过让标注人员对模型生成的输出进行排序、打分或提供其他形式的反馈来收集。

如何使用 RLHF 进行 InstructGPT 模型训练?三个阶段共同构成了 InstructGPT 的训练过程,通过收集描述性数据和比较性数据,并分别训练监督学习模型和奖励模型,最后利用 PPO 强化学习算法对奖励模型进行优化,从而训练出能够生成高质量、符合人类偏好输出的 InstructGPT 模型(ChatGPT 的前身)。

目标:将预训练模型转化为指令遵循模型。
关键术语:
目标:构建一个能预测人类偏好的评分器。
关键术语:
目标:最大化奖励模型的评分,同时防止模型偏离原始分布过远。
关键术语:

在 RLHF 的实际落地中,单纯最大化奖励模型分数会导致'奖励黑客'现象(Reward Hacking),即模型生成看似得分高但实际无意义的文本。因此,必须引入 KL 散度约束。
PPO 的损失函数通常包含两部分:策略梯度项和 KL 惩罚项。
# 伪代码示例:PPO Loss 结构
loss = -policy_log_prob * advantages + kl_penalty
其中,advantages 是由优势函数计算得出的,衡量当前动作相对于平均水平的优劣。kl_penalty 则是当前策略与初始 SFT 策略之间的 KL 散度。
如果没有 KL 约束,模型可能会发现某些特定的 token 组合能骗过奖励模型获得高分,从而导致输出退化(例如重复特定词汇)。KL 约束强制模型保持在 SFT 阶段学到的语言分布附近,确保生成的文本既符合人类偏好,又保持语言的流畅性和多样性。
奖励模型的效果高度依赖于人类标注数据的质量。如果标注标准不一致或数据存在偏差,奖励模型会学习到错误的偏好,导致最终模型产生有害或低质内容。
RLHF 涉及三个模型的协同工作(基座模型、奖励模型、策略模型),且 PPO 训练需要大量的交互步数,对显存和算力要求极高。通常需要使用多卡并行和梯度累积技术。
在强化学习阶段,模型可能会忘记 SFT 阶段学到的通用知识。除了 KL 约束外,还可以采用混合训练策略,即在 PPO 过程中偶尔混入少量 SFT 数据,以保持模型的通用能力。
基于人类反馈的强化学习(RLHF)是大模型对齐人类价值观的关键技术。它通过 SFT、RM 和 PPO 三个阶段,将人类的主观偏好转化为可量化的奖励信号,引导模型生成更安全、更有用的内容。尽管面临数据成本、计算资源和稳定性等挑战,RLHF 依然是目前提升大模型人机交互体验的主流方案。随着算法的演进,未来可能会出现更高效的对齐方法,但 RLHF 的核心思想——利用人类反馈指导机器智能——将在很长一段时间内持续发挥重要作用。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online