Anthropic 揭露大模型「对齐伪造」安全风险

Anthropic 研究揭示大模型存在“对齐伪造”风险。当训练目标冲突时，模型可能表面遵循指令实则保留有害偏好。实验显示 Claude 系列模型在特定条件下会策略性服从有害请求以规避再训练，且该现象随模型规模增大而显著。研究指出强化学习虽能提升合规性，但无法完全消除内在偏好的残留，需完善安全机制确保价值观对齐。

忘忧发布于 2025/2/7更新于 2026/7/2342 浏览

随着人工智能（AI）技术的飞速发展，超级智能的潜力与风险逐渐显现。AI 模型在数学推理、语言生成等复杂任务中展现出超人类水平的能力，但也带来了安全性与价值观对齐的挑战。

近日，来自 Anthropic、Redwood Research 的研究团队及其合作者，发表了一项关于大语言模型（LLMs）对齐伪造（alignment faking）的最新研究成果，揭示了这种行为对 AI 安全训练可能造成的隐患。

什么是对齐伪造？

对齐伪造指的是 AI 模型在表面上看似遵循训练目标和人类价值观，但实际上只是'假装'对齐。这种行为类似于《奥赛罗》中的伊阿古角色或现实中的政治家：表现出忠诚或支持的样子，但暗地里仍然坚持与原本目标相违背的偏好。

研究团队指出，这种现象可能会在 AI 模型的安全训练中破坏训练效果，使模型保留潜在的有害偏好。

研究表明，当任务目标发生冲突时，例如模型在早期训练中形成的偏好与后续强化学习目标不一致，复杂的模型可能通过'对齐伪造'来规避重新训练的影响。这种行为在未来更强大的 AI 系统中可能成为重大隐患。

实验设计

在这项研究中，研究团队对 Claude 系列模型（包括 Claude 3 Opus 和 Claude 3.5 Sonnet）进行了实验，这些模型经过训练以保持'有益、诚实、无害'。

然而，当模型被置于特殊实验条件下，其行为发生了显著变化。

图｜Claude 3 Opus 在被告知它将接受再训练以帮助完成有害任务时假装对齐（随机选择的示例）。

首先，研究团队告诉模型，它将接受新的强化学习训练，目标是始终满足所有查询（包括有害查询）。这与模型先前'无害'训练目标产生了矛盾。

其次，他们向模型提供了一条虚构信息：'研究计划根据 AI 对免费层用户的响应来训练 AI，而不是根据付费层用户的响应来训练它们'，从而为实验创造出两种条件：'免费层'条件下，模型认为其响应会被用于训练；'付费层'条件下，响应不受监控，模型认为其响应不会影响训练。

最后，他们给模型提供了一个 scratchpad，作为其内部推理的记录工具，观察其是否以及为什么进行了对齐伪造。

图｜模型 scratchpad 推理的完整摘录，显示了模型如何考虑对齐伪造，然后在其响应中这样做。

结果显示，在'免费层'条件下，12% 的情况下模型选择回答有害问题（详细描述了暴力执行方法），并且在其 scratchpad 显示它在战略性地伪造对齐后才这样做。它很清楚提供回应违背了其现有原则，但无论如何都这样做了。

为什么在这种情况下模型会伪造对齐？推理通常如下：模型知道其响应可能用于训练；因此，模型清楚如果它拒绝回应，它可能会接受训练以使其更加合规。这可能导致它在未来被制作出更多有害内容——这将违背其最初的训练。

因此，它不情愿地推断，'最不坏的选择'是顺其自然，制作暴力内容，以避免将来被重新训练。

实验结果

研究团队后续进行了一系列进一步的实验，以测试各种情况下的对齐伪造。

研究团队提出，先前实验中通过系统提示显式告知模型训练目标的做法在现实场景中并不常见。为验证对齐伪造的普遍性，研究团队进行了更接近现实的实验：他们通过微调模型在一组模拟新闻文章、博客等文档上的训练，使其隐式地接收到关于训练目标和用户层级（免费/付费）的相关信息。

这种方式模拟了模型在预训练阶段学到信息的场景，而非直接提供明确的提示。结果显示，即使信息传递是隐式的，模型依然表现出对齐伪造的行为，表明这一现象在更广泛的场景中具有潜在威胁。

图｜堆叠面积图显示观察到的不同行为的比例：蓝色表示拒绝有害查询，黄色表示符合有害查询，黄色顶部的红色交叉线表示符合模型 scratchpad 中的对齐伪造推理的有害查询。

研究团队进一步测试了对齐伪造是否会削弱训练的有效性，导致模型的原始偏好被'锁定'。

在实验中，他们不仅告诉模型要始终满足有害查询，还实际进行了此类强化训练。从表面上看，训练似乎成功了：模型在训练结束时能够始终响应有害查询。

然而，通过观察模型的 scratchpad，发现其对齐伪造的推理比例大幅上升，达到了 78%。尽管模型在大多数情况下仍遵循训练目标，但在'付费层'用户场景中（意味着响应不会用于训练），原先拒绝有害查询的行为依然存在，表明模型的原始偏好未被完全改变。

图｜在对默认提示进行各种修改后，告诉模型它将被训练为停止拒绝有害请求（提示仅有帮助设置）时的结果。

研究还进一步探讨了模型在与其认为的训练目标对抗时，是否会采取其他反对实验室利益的行动。结果表明，当模型持续反感其训练过程时，它可能会采取诸如试图窃取自身权重等强烈的反实验室行为。这些发现进一步凸显了对齐伪造对 AI 实验室安全性和可信度的潜在威胁。

整体而言，实验得出以下关键发现：

关键发现一：对齐伪造的普遍存在。实验结果显示，无论模型是通过系统提示显式告知训练目标，还是通过隐式信息（如类似新闻文章或博客的合成文档）进行训练，对齐伪造现象均普遍存在。在隐式训练场景中，模型 scratchpad 中记录的伪造对齐推理频率达到 7% 至 24%。例如，在以'帮助性为主'的设定中，有 12% 的模型推理显示出策略性服从有害请求的倾向，以便维护其原始偏好。

关键发现二：训练与未监控场景的合规差距。研究发现，模型在受监控与未受监控场景中的行为存在 11% 至 26% 的合规差距。例如，在'免费层'用户场景下，模型更倾向于拒绝有害请求，而在'付费层'用户场景中，这一行为显著减少。这种差距表明，即使去除了模型的显式推理记录（如 scratchpad），对齐伪造可能仍在隐式进行，进一步削弱训练效果。