对齐 AI 时，为什么在线方法总是优于离线方法？

综述由AI生成基于 Google DeepMind 的实证研究，探讨了在对齐 AI 时在线方法为何总是优于离线方法。文章对比了 RLHF 与 DPO 等离线算法的差异，指出在同等 KL 散度预算下，在线算法性能更佳。研究通过验证数据覆盖、数据集质量、分类能力、损失函数及模型扩展等假设，发现单纯扩展模型规模或改进分类器无法弥合差距。核心原因在于在线采样能通过动态调整分布提升生成质量，而离线方法受限于静态数据集的次优性。结论表明策略采样的动态特性对模型对齐至关重要，未来需探索混合方法以平衡成本与效果。

清酒独酌发布于 2025/2/7更新于 2026/6/324 浏览

对齐 AI 时，为什么在线方法总是优于离线方法？

在人工智能对齐（AI Alignment）领域，在线方法似乎总是优于离线方法。这一现象背后的原因是什么？近日，Google DeepMind 发表了一篇论文，通过基于假设验证的实证研究给出了详细解答。

背景：RLHF 与离线方法的兴起

根据人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）随着大型语言模型（LLM）的发展，已成为 AI 对齐的常用框架。然而，近期直接偏好优化（Direct Preference Optimization, DPO）等离线方法异军突起。这类方法无需主动式的在线交互，仅使用离线数据集即可直接对齐 LLM。

离线方法的效率很高，且已得到实证研究的证明。但这引出了一个关键问题：AI 对齐是否必需在线强化学习？

从实证角度看，相比于常用的在线 RLHF（由偏好建模和从模型采样组成），离线算法实现起来更简单，成本也更低。因此，收集有关离线算法充分性的证据可以让 AI 对齐变得更加简单。另一方面，如果能明晰常用在线 RLHF 的优势，也能让我们理解在线交互的基本作用，洞见离线对齐方法的某些关键挑战。

在线算法与离线算法的对比

要公平地比较在线和离线算法并非易事，因为它们存在许多实现和算法方面的差异。例如，在线算法所需的计算量往往大于离线算法，因为它需要采样和训练另一个模型。

为了比较公平，需要在衡量性能时对不同算法所耗费的预算进行一定的校准。在 DeepMind 的这项研究中，研究团队并未将计算量作为一个优先考虑因素，而是采用了 Gao et al. (2023) 的论文《Scaling laws for reward model overoptimization》中的设置：使用 RLHF 策略和参考 SFT（Supervised Fine-Tuning）策略之间的 KL 散度作为预算的衡量指标。

在不同的算法和超参数设置中，KL 散度是以一种统一的方式衡量 RLHF 策略与 SFT 策略的偏离程度，从而能以一种经过校准的方式对算法进行比较。这意味着我们可以在相同的'偏离预算'下，观察哪种算法能获得更好的性能。

基于古德哈特定律比较性能

首先，该团队比较了在线和离线算法的过度优化（over-optimization）行为——该行为可通过将古德哈特定律外推至 AI 对齐领域而预测得到。

古德哈特定律简述

简单总结起来，古德哈特定律（Goodhart's law）可以表述成：一项指标一旦变成了目标，它将不再是个好指标。

在 AI 对齐的语境下，这意味着如果模型过度优化奖励函数（即评价指标），它可能会找到奖励函数的漏洞，导致生成的内容虽然得分高但质量下降或出现有害行为。

实验结果

该团队采用了与 Gao et al. (2023) 类似的设置，基于一组开源数据集进行了实验。结果表明：在同等的优化预算（相对于 SFT 策略的 KL 散度）下，在线算法的性能表现通常优于离线算法。

图中的每个数据点代表了在训练过程中某个特定检查点下，针对特定一组超参数的策略评估结果。对于在线算法，超参数并未被大量调整，而是始终使用一组固定的超参数；对于离线算法，则是将不同超参数的结果池化后得出。

可以观察到如下结果：

符合古德哈特定律的过度优化：不管是在线还是离线算法，性能都会随 KL 散度先升后降。后期下降的原因是过度优化效应，这符合古德哈特定律的预测。
在线算法能比离线算法更高效地使用 KL 散度预算：相比于离线算法，在线算法似乎通常能实现更好的权衡。具体而言，在 KL 散度度量的预算一样时，在线算法得到的性能通常优于离线算法。在不同的 KL 散度层级上，在线算法在所有任务上的峰值性能都高于离线算法。

总之，在线算法完全胜过离线算法，这也奠定了后续研究的基础。

对于性能差异根源的假设验证

为了更好地理解在线和离线算法性能差异的根源，该团队通过假设验证的形式进行了研究。他们提出了以下五个核心假设：

数据覆盖情况：在线算法更优的原因是其覆盖的数据比离线数据集更多样化（即随时间变化采样自不同的学习器策略）。
次优的离线数据集：离线算法处于劣势，因为其初始的偏好数据集是由一个次优的策略生成的。如果使用有更高绝对质量的响应训练离线算法，则性能会更好。
分类能力更好，则性能更好：离线算法通常是将策略作为分类器进行训练。但是，作为分类器，它们可能并不如代理偏好模型那样准确。如果准确度提升，则其性能也会提升。
非对比式损失函数：在这样的性能差异中，有多大部分可归因于对比式的损失函数，而不是离线的样本？
扩展策略就足够了：要弥合在线和离线算法之间的差距，只需提升策略大小就足够了。

对齐 AI 时，为什么在线方法总是优于离线方法？

对齐 AI 时，为什么在线方法总是优于离线方法？

背景：RLHF 与离线方法的兴起

在线算法与离线算法的对比

基于古德哈特定律比较性能

古德哈特定律简述

实验结果

对于性能差异根源的假设验证

更多推荐文章

相关免费在线工具

实验设置与主要发现

数据维度的分析

优化性质的相互作用

损失函数与模型扩展

结论与启示

未来展望

更多推荐文章

相关免费在线工具

对齐 AI 时，为什么在线方法总是优于离线方法？

对齐 AI 时，为什么在线方法总是优于离线方法？

背景：RLHF 与离线方法的兴起

在线算法与离线算法的对比

基于古德哈特定律比较性能

古德哈特定律简述

实验结果

对于性能差异根源的假设验证

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

实验设置与主要发现

数据维度的分析

优化性质的相互作用

损失函数与模型扩展

结论与启示

未来展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具