超级对齐全面综述:构建安全可靠的未来
1. 引言
随着大语言模型(LLMs)的规模不断扩大,它们展现出了越来越强的能力,这一现象被称为涌现能力。这一规模扩展催生了包括 GPT-4、Claude 3.5 和 Gemini Ultra 等专有模型,以及开源模型如 Llama 3.2、Mixtral 和 Qwen 2.5 等变体。大语言模型的涌现能力使得它们在广泛任务中的表现取得了显著进展,包括自然语言理解、推理、代码生成和多语言翻译。此外,大语言模型还展现了令人惊讶的突破,例如部分通过图灵测试以及在解决困难的数学问题时表现出高精度。
近期研究表明,这些大语言模型的进展引发了从人工狭义智能(ANI)到人工通用智能(AGI)的转变,尽管 AGI 尚未实现,但人工超智能(ASI)作为未来的潜在场景正受到关注。ANI 指的是目前使用的 AI 系统,这些系统被设计为执行特定任务,但它们缺乏人类的通用认知能力。相反,AGI 代表的是一种理论上的 AI 模型,能够展现出类似人类的能力,包括推理、学习和跨领域的适应能力。
大语言模型的发展,尤其是它们的知识泛化能力和涌现行为,增强了实现 AGI 变得越来越现实的乐观情绪。这一发展也引发了对人工超智能(ASI)的关注,这是一个假设性的未来阶段,机器将不仅在各个领域超越人类智能,还具备先进的认知功能和复杂的思维能力。鉴于 ASI 有可能在未来实现,我们有必要对 ASI 时代进行设想并做好准备。
然而,ASI 的发展面临挑战,特别是当人类无法通过标注数据监督 AI 系统时,缺乏有效的指导信号。超级对齐被定义为'监督、控制和治理人工超智能系统的过程',并从监督和治理的角度包含了两个子目标。实现这些目标需要一个迭代的、共同发展的过程。
从监督角度来看,目标是构建高质量的指导信号,以增强模型的实用性。传统的训练方法,例如强化学习与人类反馈(RLHF),一旦模型开始超越人类智能,就面临可扩展性问题。这就造成了一个关键瓶颈——无法提供足够高质量的指导信号来提升系统的有用性或能力。
从治理角度来看,目标是有效地调节模型的行为,确保它保持无害并与人类价值观对齐。如果没有稳健的治理,ASI 可能表现出不可预测、有害,甚至灾难性的行为。例如,未对齐的 ASI 系统可能会追求不小心削弱人类能力或造成生存风险的目标。为了解决这个问题,必须不仅约束 ASI 的行为,还要确保这些系统以符合道德原则的方式运行。这个过程涉及开发引导先进 AI 系统的方法,确保它们保持有益和安全。超级对齐使得开发价值对齐的 ASI 成为可能,最大化对人类的利益。
当前的对齐范式,如 RLHF、监督微调(SFT)和上下文学习(ICL),在将 LLM 与人类价值观和目标对齐方面表现出一定的前景。RLHF 利用人类反馈训练奖励模型,生成奖励信号帮助对齐语言模型与人类偏好。相对而言,SFT 去除了强化奖励模型,直接使用人类反馈微调语言模型。而 ICL 则通过在推理过程中约束 LLM 的响应来对齐其输出与人类价值观,无需额外训练。
可扩展监督是源自超级对齐的概念,旨在开发可扩展的、高质量的监督信号,能够引导超越人类能力的 AI 系统,同时确保与人类价值观和目标的对齐。然而,尽管 RLHF、SFT 和 ICL 已有进展,这些范式仍难以实现超级对齐的目标。从监督角度来看,RLHF 受限于人类反馈的可扩展性和可靠性。随着模型复杂性的增长,收集准确、一致且全面的反馈变得越来越困难。类似地,SFT 面临着策划和标注多样化且具有代表性的数据集的挑战。尽管 ICL 完全绕过了训练过程,但在推理时依赖精心设计的提示,这在可扩展性和表达能力上本质上存在限制。
为了应对超级对齐的挑战,必须设计定制化的方法。随着模型朝着 ASI 发展,增强其在发展过程中的能力,同时引导其价值观和目标,以最大化对人类社会的利益,至关重要。
2. 概述
2.1 术语定义
人工狭义智能(ANI) 或'弱 AI'是指被设计为在单一特定任务上表现出色的 AI 系统。这些系统在任务上表现等同或低于人类水平,并且缺乏泛化能力。ANI 系统的例子包括语言翻译系统和游戏 AI(例如象棋和围棋)。
人工通用智能(AGI) 是指超越 ANI 的理论跃升。AGI 系统将拥有与人类相当的智能,并能够在广泛的任务和领域中展示通用能力。AGI 系统能够泛化知识并适应新的挑战。
人工超智能(ASI) 是指在所有任务和领域中,AI 系统超越人类智能并具备卓越的思维能力。ASI 系统展示出优越的推理能力、创造力和适应性,形式上描述为在所有任务结果质量上超越人类智能。
尽管 ASI 目前距离实现还有很长的路要走,解决超级对齐问题却是及时且至关重要的,因为这能减轻灾难性风险。积极的准备工作是必要的,因为 ASI 的出现可能会超越我们应对的能力,导致无法进行修正。此外,监督和治理必须作为互动过程共同进化,既增强 AI 的能力,又能同时减轻相关风险。
2.2 超级对齐
超级对齐的目标是提升 ASI 的能力并使其对齐。超级对齐源于可扩展监督的概念,后者解决了当 AI 系统接近或超越人类智能时如何在可扩展的方式下引导其行为的问题。
可扩展监督正式定义为'确保给定 AI 系统遵守其目标中那些在训练过程中无法频繁评估的方面,这些评估代价高或不切实际'。这一概念表明,随着 AI 系统超越人类智能,必须采用能够提供可靠、高质量监督信号的方法。作为可扩展监督的特定应用,超级对齐关注的是将 ASI 与人类的价值观和意图对齐,同时提升其有效达成目标的能力。
自从大规模模型的出现和其能力的提升以来,超级对齐作为确保 AI 系统与人类价值观对齐并保持其能力的手段,已引起了广泛关注。为解决治理 ASI 的挑战,出现了可扩展监督技术,如夹击(sandwiching)和弱到强泛化(W2SG)等,这些方法被认为是有前景的解决方案。


