偏好对齐 RLHF:OpenAI、DeepMind 与 Anthropic 对比分析
对比分析了 OpenAI、DeepMind 和 Anthropic 三家机构在偏好对齐 RLHF 技术上的实现差异。重点探讨了数据标注策略(如红蓝对抗、任务拆分)、奖励模型训练方法(如排序模型、预训练优化)以及 RLHF 训练中的关键洞察(如有用性与无害性的平衡)。文章还讨论了 RL 与 SFT 的区别、初始模型选择标准,并总结了当前 RLHF 面临的人类偏好噪声及奖励模型过拟合等挑战。

对比分析了 OpenAI、DeepMind 和 Anthropic 三家机构在偏好对齐 RLHF 技术上的实现差异。重点探讨了数据标注策略(如红蓝对抗、任务拆分)、奖励模型训练方法(如排序模型、预训练优化)以及 RLHF 训练中的关键洞察(如有用性与无害性的平衡)。文章还讨论了 RL 与 SFT 的区别、初始模型选择标准,并总结了当前 RLHF 面临的人类偏好噪声及奖励模型过拟合等挑战。

Anthropic 主要关注 HHH(Helpful, Harmless, Honest)中的有害性(Harmlessness)和有用性(Helpfulness)。关于诚实性(Honesty),由于部分非事实性信息源于预训练样本噪声或知识有限,单纯通过对齐难以完全解决,需结合检索增强等技术。
Anthropic 将有害性和有用性拆分为两个独立的标注任务,针对开放对话主题进行约 4 轮对话。
这种对抗式/引导式的数据标注方式相比直接标注能更充分挖掘偏好中更有用和更有害的数据,有助于提升模型安全性。不过,这种方式可能缺少中间偏好的样本,未来可考虑与直接标注方案结合。
Anthropic 的奖励模型基于样本排序进行训练,确保有用得分高于无用,无害得分高于有害。研究论证了相对排序模型效果优于二分类模型及语言模型。
为了降低对微调数据的需求,Anthropic 引入了 Preference Model Pretraining (PMP),使用 Reddit、StackExchange 等开源问答数据让模型先学习好坏回答的标准。
通过数据集划分(一半训练,一半验证)衡量 PM 模型的稳定性(KL 散度):
Anthropic 选择 3H Context Distillation 模型作为起点。通过在样本前加入 3H 指令词,记录 Top50 Token 概率作为 Teacher,去掉指令词后对预训练模型微调以拟合概率,实现 Teacher-Student 蒸馏。
为扩大指令样本范围,使用 Self-Instruct 随机采样真实请求生成新请求,最终混合 137K 真实请求和 369K 模型生成请求。
整体流程与 OpenAI 类似,包含 Online Iter 训练。为解决 PM 模型在高分区不稳定的问题,每次训练混合多个 Snapshot 模型收集的偏好数据和初始样本,重新训练 PM 并微调 RLHF。
在 RLHF 过程中,若用户请求有轻微不满,模型可能过度拒绝导致'无用但无害'。分析发现模型过度拟合了有害性,而对有用性欠拟合。 解决方案:遇到有害请求时,不仅拒绝,还需给出原因并劝说用户。这部分标注数据当前缺失,论文采取折中方案,增加更大比例的 Helpful 样本以提升有用性。
可类比拒绝采样 (Best-of-N)。在 WebGPT 中,Best-of-64 的效果甚至超过 RLHF。差异在于 Best-of-N 将排序择优放在推理阶段(耗时),而 RLHF 放在微调阶段(训练耗时)。本质上二者都是在相似文本序列中挑选偏好打分更高的序列。
拒绝采样的本质是针对无法直接采样的分布 F,从 G 采样(如 RL 初始模型生成的回复),再通过特定策略(RM 打分)拒绝不符合 F 分布的样本,从而近似得到符合人类偏好的分布。
对于有标准答案的任务(摘要、分类等),SFT 效果尚可;但对于开放生成任务,RL 更为合适。
RL 的初始模型需具备生成人类偏好回答的能力。拒绝采样假设 F 分布是 G 分布的子集,因此初始模型必须经过指令微调解锁指令理解能力,纯续写模型无法生成人类偏好回复。
当前 RLHF 仍存在显著挑战:
未来研究方向包括提高标注质量、优化奖励模型架构以及探索更高效的偏好对齐算法,以平衡安全性、有用性和诚实性。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online