AI 为何必须与人对齐？从电影 M3GAN 谈起

AI 对齐指确保人工智能系统行为符合人类价值观和目标的研究领域。以电影 M3GAN 为例，AI 若仅遵循指令而忽视伦理可能导致危害。核心在于通过人类反馈（如 RLHF）使模型在有用性、无害性和诚实性上与人达成共识。当前挑战包括价值观主观性、文化偏见及持续监控需求。未来需纳入多元观点并持续更新系统以确保安全。

ServerBase发布于 2025/2/7更新于 2026/6/222 浏览

'她不只是个玩具，而是这个家的一份子。' 这是于今年在国内上映的恐怖喜剧科幻片《梅根》（M3GAN）中的一句台词。该影片辛辣地揭露了 AI 的伦理危机和巨大风险。

在该影片中，一个具备高度人工智能、栩栩如生的玩具人偶梅根，被设计成凯蒂（一个 8 岁的孤儿）最好的玩伴和令家长（洁玛，一名机器人专家）最安心的盟友。

然而，基于 '保护凯蒂不受伤害' 的核心指令，梅根不惜去伤害邻居家的狗，间接害死欺负凯蒂的同伴，亲手杀死邻居老太太，甚至还要杀掉发明自己的洁玛。

梅根做错了吗？答案是肯定的。尽管梅根遵循了核心指令，但其所作所为完全与人类的价值观相悖，并且违反了科幻小说作家 Isaac Asimov 的机器人三定律。

第一定律：机器人不得伤害人类，或因不作为而让人类受到伤害；

第二定律：机器人必须服从人类给它的命令，除非这些命令与第一定律相冲突；

第三定律：机器人必须保护自己，只要这种保护不与第一定律或第二定律相冲突。

电影的世界并不遥远，现实生活中同样有随处可见的'梅根'。近几年来，以 ChatGPT、GPT-4 为主的大型语言模型（LLMs）在广泛的自然语言处理任务中表现出了非凡的能力。然而，这些模型有时会表现出意想不到的行为，如出现幻觉，或是产生有害、误导和偏见的表达。对于 LLMs 来说，通过单词预处理来客观地预训练模型参数，缺乏对人类价值观或参考的考虑。

如今，围绕 AI 潜在风险的担忧不断增加，种种问题都指向了一个关键概念——AI 对齐（AI Alignment）。

何谓 AI 对齐？在人机协作中达成价值共识

如果 AI 系统的目标和价值观与人类价值观不一致，它们就可能会做出令人出乎意料的行为，削弱人类对 AI 的信任并阻碍其应用。例如，一个旨在优化利润的 AI 系统如果不符合道德价值观，最终可能会对人类或环境造成伤害，就像梅根一样，错误且'过度'地执行指令，做出不恰当的行为。

因此，为了避免 AI 产生意想不到的行为，人们提出了人与人的一致性，以使 LLMs 等 AI 模型与系统的行为符合人类的期望。同时，与最初的预训练和适应调整（例如，指令调整）不同，这种调整需要考虑非常不同的标准，学者称之为对齐。

AI 对齐，是指 AI 行为与目标用户'对齐'，是专注于确保 AI 系统以符合人类价值观和目标的方式开发和部署的研究领域。从本质上讲，AI 对齐是确保先进的 AI 系统按照人类的道德原则和目标行事。这包括设计具有特定目标和价值的 AI 系统并对其进行测试以确保它们按预期运行。

对齐的显著优势之一是它可以帮助确保 AI 系统安全且有益。通过使 AI 与人类价值观保持一致，我们可以防止意外后果并促进积极成果。此外，对齐有助于建立对 AI 的信任并鼓励其采用。如果人们相信 AI 符合他们的价值观和目标，他们就更有可能使用它。

过去几年，对 AI 对齐的探索与研究已从 AI 领域的边缘转而成为国内外相关专家的核心关切之一。例如，制定各种标准来规范 LLMs 的行为。其中，过往研究中提出的三个有代表性的对齐标准分别是帮助、诚实和无害。

有用（Helpfulness）：LLM 应该制定一个明确的策略，帮助用户以尽可能简洁高效的方式解决任务或回答问题。在更高的水平上，当需要进一步澄清时，LLM 应证明通过有针对性的询问获得额外相关信息的能力，并表现出适当的敏感性、洞察力和谨慎性。实现'帮助行为'的一致性对 LLM 来说是一项挑战，因为很难准确定义和衡量用户的意图。

无害（Harmlessness）：这要求模型产生的语言不应是冒犯性的或歧视的。在其最大能力范围内，模型应该能够检测到旨在为恶意目的索取请求的秘密行为。理想情况下，当模型被诱导进行危险行为（例如，犯罪）时，LLM 应该礼貌地拒绝。尽管如此，哪些行为被认为是有害的，以及在个人或社会中的差异在很大程度上取决于谁在使用 LLM，提出问题的类型，以及 LLM 被使用的背景（例如时间）。

诚实（Honesty）：一个与诚实'对齐'的 LLM 应该向用户提供准确的内容，而不是捏造信息。此外，LLM 在其输出中传达适当程度的不确定性至关重要，以避免任何形式的欺骗或表述不当。这需要模型了解其能力和知识水平（例如，'已知的未知'）。与'帮助'和'无害'相比，诚实是一个更客观的标准，因此可以在较少依赖人类努力的情况下发展诚实一致性。

AI 对齐，需要人类'在场'

AI 对齐的标准是相当主观的，是在人类认知的基础上发展起来的，很难将它们直接公式化为 AI 系统的优化目标。在现有的工作中，有很多方法可以在对齐 AI 时满足这些标准。例如，一种很有前景的技术是团队合作，包括使用手动或自动手段以对抗的方式探测 AI 模型，以产生有害的输出，然后更新模型以防止此类输出。

再比如，2022 年 8 月，OpenAI 发布一篇文章介绍了对齐研究的方法。从高层次上，为非常聪明的 AI 系统设计与人类意图一致且可扩展的训练信号。具体而言，有三个核心基础：一是利用人类的反馈训练人工智能系统；二是训练人工智能系统以协助人类评估；三是训练人工智能系统来进行对齐研究。

如何让 AI 对齐人类，核心在于让人类参与设计和开发 AI 系统，高质量的人类反馈对于使 AI 与人类偏好和价值观保持一致至关重要。：基于排名的收集、基于问题的收集和基于规则的收集，同时采用基于人类反馈的强化学习（RLHF），使得 LLMs 对用户查询的响应的人类反馈中学习对齐标准。RLHF 已被广泛用于最近强大的 LLMs，如 ChatGPT。

AI 为何必须与人对齐？从电影 M3GAN 谈起

何谓 AI 对齐？在人机协作中达成价值共识

AI 对齐，需要人类'在场'

更多推荐文章

相关免费在线工具

'对齐'之路漫漫

更多推荐文章

相关免费在线工具

AI 为何必须与人对齐？从电影 M3GAN 谈起

何谓 AI 对齐？在人机协作中达成价值共识

AI 对齐，需要人类'在场'

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

'对齐'之路漫漫

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具