'她不只是个玩具,而是这个家的一份子。' 这是于今年在国内上映的恐怖喜剧科幻片《梅根》(M3GAN)中的一句台词。该影片辛辣地揭露了 AI 的伦理危机和巨大风险。
在该影片中,一个具备高度人工智能、栩栩如生的玩具人偶梅根,被设计成凯蒂(一个 8 岁的孤儿)最好的玩伴和令家长(洁玛,一名机器人专家)最安心的盟友。
然而,基于 '保护凯蒂不受伤害' 的核心指令,梅根不惜去伤害邻居家的狗,间接害死欺负凯蒂的同伴,亲手杀死邻居老太太,甚至还要杀掉发明自己的洁玛。
梅根做错了吗?答案是肯定的。尽管梅根遵循了核心指令,但其所作所为完全与人类的价值观相悖,并且违反了科幻小说作家 Isaac Asimov 的机器人三定律。
第一定律:机器人不得伤害人类,或因不作为而让人类受到伤害;
第二定律:机器人必须服从人类给它的命令,除非这些命令与第一定律相冲突;
第三定律:机器人必须保护自己,只要这种保护不与第一定律或第二定律相冲突。
电影的世界并不遥远,现实生活中同样有随处可见的'梅根'。近几年来,以 ChatGPT、GPT-4 为主的大型语言模型(LLMs)在广泛的自然语言处理任务中表现出了非凡的能力。然而,这些模型有时会表现出意想不到的行为,如出现幻觉,或是产生有害、误导和偏见的表达。对于 LLMs 来说,通过单词预处理来客观地预训练模型参数,缺乏对人类价值观或参考的考虑。
如今,围绕 AI 潜在风险的担忧不断增加,种种问题都指向了一个关键概念——AI 对齐(AI Alignment)。
何谓 AI 对齐?在人机协作中达成价值共识
如果 AI 系统的目标和价值观与人类价值观不一致,它们就可能会做出令人出乎意料的行为,削弱人类对 AI 的信任并阻碍其应用。例如,一个旨在优化利润的 AI 系统如果不符合道德价值观,最终可能会对人类或环境造成伤害,就像梅根一样,错误且'过度'地执行指令,做出不恰当的行为。
因此,为了避免 AI 产生意想不到的行为,人们提出了人与人的一致性,以使 LLMs 等 AI 模型与系统的行为符合人类的期望。同时,与最初的预训练和适应调整(例如,指令调整)不同,这种调整需要考虑非常不同的标准,学者称之为对齐。
AI 对齐,是指 AI 行为与目标用户'对齐',是专注于确保 AI 系统以符合人类价值观和目标的方式开发和部署的研究领域。从本质上讲,AI 对齐是确保先进的 AI 系统按照人类的道德原则和目标行事。这包括设计具有特定目标和价值的 AI 系统并对其进行测试以确保它们按预期运行。
对齐的显著优势之一是它可以帮助确保 AI 系统安全且有益。通过使 AI 与人类价值观保持一致,我们可以防止意外后果并促进积极成果。此外,对齐有助于建立对 AI 的信任并鼓励其采用。如果人们相信 AI 符合他们的价值观和目标,他们就更有可能使用它。
过去几年,对 AI 对齐的探索与研究已从 AI 领域的边缘转而成为国内外相关专家的核心关切之一。例如,制定各种标准来规范 LLMs 的行为。其中,过往研究中提出的三个有代表性的对齐标准分别是帮助、诚实和无害。
有用(Helpfulness):LLM 应该制定一个明确的策略,帮助用户以尽可能简洁高效的方式解决任务或回答问题。在更高的水平上,当需要进一步澄清时,LLM 应证明通过有针对性的询问获得额外相关信息的能力,并表现出适当的敏感性、洞察力和谨慎性。实现'帮助行为'的一致性对 LLM 来说是一项挑战,因为很难准确定义和衡量用户的意图。
无害(Harmlessness):这要求模型产生的语言不应是冒犯性的或歧视的。在其最大能力范围内,模型应该能够检测到旨在为恶意目的索取请求的秘密行为。理想情况下,当模型被诱导进行危险行为(例如,犯罪)时,LLM 应该礼貌地拒绝。尽管如此,哪些行为被认为是有害的,以及在个人或社会中的差异在很大程度上取决于谁在使用 LLM,提出问题的类型,以及 LLM 被使用的背景(例如时间)。
诚实(Honesty):一个与诚实'对齐'的 LLM 应该向用户提供准确的内容,而不是捏造信息。此外,LLM 在其输出中传达适当程度的不确定性至关重要,以避免任何形式的欺骗或表述不当。这需要模型了解其能力和知识水平(例如,'已知的未知')。与'帮助'和'无害'相比,诚实是一个更客观的标准,因此可以在较少依赖人类努力的情况下发展诚实一致性。
AI 对齐,需要人类'在场'
AI 对齐的标准是相当主观的,是在人类认知的基础上发展起来的,很难将它们直接公式化为 AI 系统的优化目标。在现有的工作中,有很多方法可以在对齐 AI 时满足这些标准。例如,一种很有前景的技术是团队合作,包括使用手动或自动手段以对抗的方式探测 AI 模型,以产生有害的输出,然后更新模型以防止此类输出。
再比如,2022 年 8 月,OpenAI 发布一篇文章介绍了对齐研究的方法。从高层次上,为非常聪明的 AI 系统设计与人类意图一致且可扩展的训练信号。具体而言,有三个核心基础:一是利用人类的反馈训练人工智能系统;二是训练人工智能系统以协助人类评估;三是训练人工智能系统来进行对齐研究。
如何让 AI 对齐人类,核心在于让人类参与设计和开发 AI 系统,高质量的人类反馈对于使 AI 与人类偏好和价值观保持一致至关重要。:基于排名的收集、基于问题的收集和基于规则的收集,同时采用基于人类反馈的强化学习(RLHF),使得 LLMs 对用户查询的响应的人类反馈中学习对齐标准。RLHF 已被广泛用于最近强大的 LLMs,如 ChatGPT。


