对齐 AI 时,为什么在线方法总是优于离线方法?
在人工智能对齐(AI Alignment)领域,在线方法似乎总是优于离线方法。这一现象背后的原因是什么?近日,Google DeepMind 发表了一篇论文,通过基于假设验证的实证研究给出了详细解答。
背景:RLHF 与离线方法的兴起
根据人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)随着大型语言模型(LLM)的发展,已成为 AI 对齐的常用框架。然而,近期直接偏好优化(Direct Preference Optimization, DPO)等离线方法异军突起。这类方法无需主动式的在线交互,仅使用离线数据集即可直接对齐 LLM。
离线方法的效率很高,且已得到实证研究的证明。但这引出了一个关键问题:AI 对齐是否必需在线强化学习?
从实证角度看,相比于常用的在线 RLHF(由偏好建模和从模型采样组成),离线算法实现起来更简单,成本也更低。因此,收集有关离线算法充分性的证据可以让 AI 对齐变得更加简单。另一方面,如果能明晰常用在线 RLHF 的优势,也能让我们理解在线交互的基本作用,洞见离线对齐方法的某些关键挑战。
在线算法与离线算法的对比
要公平地比较在线和离线算法并非易事,因为它们存在许多实现和算法方面的差异。例如,在线算法所需的计算量往往大于离线算法,因为它需要采样和训练另一个模型。
为了比较公平,需要在衡量性能时对不同算法所耗费的预算进行一定的校准。在 DeepMind 的这项研究中,研究团队并未将计算量作为一个优先考虑因素,而是采用了 Gao et al. (2023) 的论文《Scaling laws for reward model overoptimization》中的设置:使用 RLHF 策略和参考 SFT(Supervised Fine-Tuning)策略之间的 KL 散度作为预算的衡量指标。
在不同的算法和超参数设置中,KL 散度是以一种统一的方式衡量 RLHF 策略与 SFT 策略的偏离程度,从而能以一种经过校准的方式对算法进行比较。这意味着我们可以在相同的'偏离预算'下,观察哪种算法能获得更好的性能。
基于古德哈特定律比较性能
首先,该团队比较了在线和离线算法的过度优化(over-optimization)行为——该行为可通过将古德哈特定律外推至 AI 对齐领域而预测得到。
古德哈特定律简述
简单总结起来,古德哈特定律(Goodhart's law)可以表述成:一项指标一旦变成了目标,它将不再是个好指标。
在 AI 对齐的语境下,这意味着如果模型过度优化奖励函数(即评价指标),它可能会找到奖励函数的漏洞,导致生成的内容虽然得分高但质量下降或出现有害行为。
实验结果
该团队采用了与 Gao et al. (2023) 类似的设置,基于一组开源数据集进行了实验。结果表明:在同等的优化预算(相对于 SFT 策略的 KL 散度)下,在线算法的性能表现通常优于离线算法。
图中的每个数据点代表了在训练过程中某个特定检查点下,针对特定一组超参数的策略评估结果。对于在线算法,超参数并未被大量调整,而是始终使用一组固定的超参数;对于离线算法,则是将不同超参数的结果池化后得出。
可以观察到如下结果:
- 符合古德哈特定律的过度优化:不管是在线还是离线算法,性能都会随 KL 散度先升后降。后期下降的原因是过度优化效应,这符合古德哈特定律的预测。
- 在线算法能比离线算法更高效地使用 KL 散度预算:相比于离线算法,在线算法似乎通常能实现更好的权衡。具体而言,在 KL 散度度量的预算一样时,在线算法得到的性能通常优于离线算法。在不同的 KL 散度层级上,在线算法在所有任务上的峰值性能都高于离线算法。
总之,在线算法完全胜过离线算法,这也奠定了后续研究的基础。
对于性能差异根源的假设验证
为了更好地理解在线和离线算法性能差异的根源,该团队通过假设验证的形式进行了研究。他们提出了以下五个核心假设:
- 数据覆盖情况:在线算法更优的原因是其覆盖的数据比离线数据集更多样化(即随时间变化采样自不同的学习器策略)。
- 次优的离线数据集:离线算法处于劣势,因为其初始的偏好数据集是由一个次优的策略生成的。如果使用有更高绝对质量的响应训练离线算法,则性能会更好。
- 分类能力更好,则性能更好:离线算法通常是将策略作为分类器进行训练。但是,作为分类器,它们可能并不如代理偏好模型那样准确。如果准确度提升,则其性能也会提升。
- 非对比式损失函数:在这样的性能差异中,有多大部分可归因于对比式的损失函数,而不是离线的样本?
- 扩展策略就足够了:要弥合在线和离线算法之间的差距,只需提升策略大小就足够了。


