偏好对齐 RLHF：OpenAI、DeepMind 与 Anthropic 对比分析

Anthropic 方案详解

核心论文参考

Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors and Lessons Learned
A General Language Assistant as a Laboratory for Alignment
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback

数据构建策略

Anthropic 主要关注 HHH（Helpful, Harmless, Honest）中的有害性（Harmlessness）和有用性（Helpfulness）。关于诚实性（Honesty），由于部分非事实性信息源于预训练样本噪声或知识有限，单纯通过对齐难以完全解决，需结合检索增强等技术。

标注任务拆分

Anthropic 将有害性和有用性拆分为两个独立的标注任务，针对开放对话主题进行约 4 轮对话。

有害性标注：采用红蓝对抗方案，引导模型生成有害回复。每轮模型生成 2 个回答，标注者选择更有害的一个。
有用性标注：同样每轮 2 选一，选择更有帮助的回复，不强制进行严格的事实性检查。

这种对抗式/引导式的数据标注方式相比直接标注能更充分挖掘偏好中更有用和更有害的数据，有助于提升模型安全性。不过，这种方式可能缺少中间偏好的样本，未来可考虑与直接标注方案结合。

模型迭代与采样

初始模型：使用 HHH Context Distillation 模型，通过加入指令词引导生成更安全有用的回复。
拒绝采样 (Rejection Sampling)：使用 3H 模型生成 16 个回复，利用训练后的偏好模型 (PM) 排序，选择有害性最小的 2 个回复。
RLHF 微调后模型：后续数据收集基于微调后的多个版本模型持续进行。
多样性控制：每个标注同学对话的模型虽然都是 52B 参数，但会随机来自 3 个不同版本的模型。

奖励模型 (Reward Model)

Anthropic 的奖励模型基于样本排序进行训练，确保有用得分高于无用，无害得分高于有害。研究论证了相对排序模型效果优于二分类模型及语言模型。

为了降低对微调数据的需求，Anthropic 引入了 Preference Model Pretraining (PMP)，使用 Reddit、StackExchange 等开源问答数据让模型先学习好坏回答的标准。

模型稳健性分析

通过数据集划分（一半训练，一半验证）衡量 PM 模型的稳定性（KL 散度）：

PM 模型越大，KL 散度越低：表明大模型预测置信度更高，打分分布更聚集。
低分区一致性高，高分区一致性低：有害内容标注一致性高，优质回复评价较模糊；此外高分区样本稀疏也是原因之一。

RLHF 训练流程

起点设置

Anthropic 选择 3H Context Distillation 模型作为起点。通过在样本前加入 3H 指令词，记录 Top50 Token 概率作为 Teacher，去掉指令词后对预训练模型微调以拟合概率，实现 Teacher-Student 蒸馏。

样本来源

为扩大指令样本范围，使用 Self-Instruct 随机采样真实请求生成新请求，最终混合 137K 真实请求和 369K 模型生成请求。

训练策略

整体流程与 OpenAI 类似，包含 Online Iter 训练。为解决 PM 模型在高分区不稳定的问题，每次训练混合多个 Snapshot 模型收集的偏好数据和初始样本，重新训练 PM 并微调 RLHF。

关键洞察：有用性与无害性的矛盾

在 RLHF 过程中，若用户请求有轻微不满，模型可能过度拒绝导致'无用但无害'。分析发现模型过度拟合了有害性，而对有用性欠拟合。：遇到有害请求时，不仅拒绝，还需给出原因并劝说用户。这部分标注数据当前缺失，论文采取折中方案，增加更大比例的 Helpful 样本以提升有用性。

偏好对齐 RLHF：OpenAI、DeepMind 与 Anthropic 对比分析