AGI 分级框架解析:通用智能尚处入门,特定领域已超人类
ChatGPT 发布将满一年,被视为开启了通用人工智能(Artificial General Intelligence, AGI)的大门。随后发布的 GPT-4 在诸多测试中表现出惊艳效果,被部分研究人员称为一种'通用技术',迸发出'通用人工智能的火花'。
通用人工智能的发展与争论
通用人工智能一年来的发展伴随着激烈的争论。对人工智能发展非常自信的声音认为,到 2030 年左右就可以实现'通用人工智能',即 AI 将达到甚至超过人类的水平。反对的声音则认为目前人工智能还处于初级水平,根本谈不上通用人工智能。
'深度学习之父'辛顿(Geoffrey Hinton)认为实现通用人工智能的时间会大大提前,最快至 2030 年,他也担忧超级智能将会对人类带来'生存威胁'。这种观点遭到许多人工智能专家的反对,认为目前人工智能还不必要被谈论引发生存威胁。
通用人工智能的发展会带来风险,需要监管,这已成为共识。但是,如果把理论上或者科幻小说中存在的风险带入监管,而对现实的风险无计可施,可能会阻挠创新。监管本身也会脱离人工智能技术发展与应用的实际情况,让风险与安全这样的话题变成口水式的空谈。
最近在英国布莱切利花园结束的首届人工智能安全大会,发布的宣言有包括中国在内的 28 个国家签字。一些国家和 8 家领先的人工智能企业还签署了一份自愿测试人工智能大模型安全性的文件,中国没有签字。欧盟、中国、美国推出的人工智能监管与立法,基本上秉持了风险控制的原则。这样,就需要衡量通用人工智能所带来的风险。
但通用人工智能是一项新兴的技术,发展很快,它所带来的风险只是在实际应用中才会出现,也是在一些前沿的研究中逐步发现的。有些潜在的巨大风险,甚至根本就会阻止技术的全面部署。
从技术上来说,人工智能越先进,自主性就会越强,人类与智能系统交互的关系变化越快,从而不断释放出潜在的风险。身处这样一个快速的技术创新的实践过程中,对风险的发现与识别,可能是风险管理中必需的一个视角。
Google DeepMind 的 AGI 分级框架
AI 专家们对风险的认识,从可操作、可衡量的工程思维出发。Google DeepMind 的 8 位研究人员梳理出来了一个框架,类似于自动驾驶的分级,能用共同的语言进行模型比较和风险评估。他们发表了一篇论文:《分级 AGI:通往 AGI 之路上可操作的进步》。
研究人员从图灵测试开始,梳理了通用人工智能概念的形成与演变,包括 1997 年美国军方首次提出通用人工智能这个概念,直到生成式人工智能和大语言模型时代,最领先的人工智能企业如 OpenAI、Anthropic 等对 AGI 的定义和主张。AGI 究竟能完成'哪些人'的'什么任务',并不那么容易说清楚。他们总结出了 AGI 的六个原则。
1. 侧重于能力,而不是过程
大多数定义侧重于 AGI 可以完成什么任务,而不是它完成任务的机制。这对于识别不一定是实现 AGI 的前提条件(但可能仍然是有趣的研究课题)很重要。这种侧重于能力使我们能够从 AGI 的要求中排除以下内容:
- 实现 AGI 不意味着系统以人类方式思考或理解(因为这侧重于过程,而不是能力)。
- 实现 AGI 不意味着系统具有诸如意识或情感(因为这些品质不仅侧重于过程,而且不容易通过公认的科学方法来测量)。
2. 侧重于通用性和性能
上述所有定义都在不同程度上强调通用性,但有些排除了性能标准。通用性和性能都是 AGI 的关键组成部分。一个系统必须在广泛的领域内表现良好,而不仅仅是在单一任务上达到专家水平。
3. 侧重于认知和元认知任务
是否将机器人化(anthropomorphoization)作为 AGI 的标准是一个有争议的问题。大多数定义侧重于认知任务,这里的研究人员指是非物理任务。尽管最近在机器人技术方面取得了进展,但与非物理能力相比,AI 系统的物理能力似乎滞后。
在某些认知任务上取得成功,可能需要在物理世界中具身化,建立世界知识以完成某些认知任务,或者至少可能是某些任务的成功路径之一;如果这被证明是真的,那么具身化可能对通向 AGI 的路径至关重要。另一方面,元认知能力(例如学习新任务的能力或知道何时向人类请求澄清或协助的能力)是系统实现通用性的关键前提条件。
4. 侧重于潜力,而不是部署
展示一个系统可以在特定性能水平上执行必要的任务应足以宣布该系统是 AGI;将系统的部署在开放世界中不应成为 AGI 定义的内在要求。例如,以替代劳动力为目标来定义 AGI 将需要实际部署,而以具备替代劳动力能力来定义 AGI 将侧重于潜力。将实际部署作为衡量 AGI 的条件,会引入非技术性障碍,例如法律和社会考虑,以及潜在的伦理和安全问题。
5. 侧重于生态有效度(ecological validity)
有些任务可用于对 AGI 进展进行基准测试,应该选择与真实世界(即生态有效)任务相一致的重要性(广义地解释'价值',不仅仅是经济价值,还包括社会价值、艺术价值等)。这可能意味着放弃那些容易自动化或量化的传统 AI 度量标准,因为这些度量标准可能无法捕捉人们在 AGI 中所看重的技能。


