摘要
多模态人工智能系统有望在我们的日常生活中普及。让这些系统具备更强交互性的一个有效途径,是将其作为智能体(Agent)嵌入物理与虚拟环境中。目前,现有系统以大型基础模型为核心构建模块来打造具象化智能体(embodied agents)。将智能体嵌入此类环境,能助力模型处理和解读视觉信息与上下文数据 —— 这对于开发更复杂、更具上下文感知能力的人工智能系统至关重要。例如,一个能够感知用户动作、人类行为、环境物体、音频表达及场景整体情绪的系统,可用于指导智能体在特定环境中做出合理响应。
为推动基于智能体的多模态智能研究,本文将'智能体人工智能(Agent AI)'定义为一类交互式系统:这类系统能够感知视觉刺激、语言输入及其他基于环境的数据,并能产生有意义的具象化动作。具体而言,我们探索的系统旨在通过整合外部知识、多感官输入和人类反馈,基于'下一具象化动作预测'来优化智能体性能。我们认为,通过在真实环境中开发智能体化人工智能系统,可有效减轻大型基础模型的'幻觉问题'(hallucinations)及其生成与环境不符输出的倾向。
新兴的智能体人工智能领域涵盖了多模态交互中更广泛的具象化(embodied)与智能体化(agentic)特性。除了在物理世界中行动与交互的智能体,我们还展望了一个未来场景:人们能够轻松创建任意虚拟现实或模拟场景,并与嵌入其中的智能体进行交互。
- 图 1 智能体 AI 正成为通往通用人工智能(AGI)的一条极具前景的路径。智能体 AI 的训练已展现出在物理世界中具备多模态理解的能力。它通过将生成式 AI 与多个独立数据源相结合,提供了一种跨现实无关性训练框架。针对智能体及行为相关任务训练的大型基础模型,在经过跨现实数据训练后,可同时应用于物理世界与虚拟世界。本文对一套可在众多不同领域与应用中感知并执行操作的智能体 AI 系统进行了总体概述,该范式有望成为依托智能体思路实现通用人工智能的一条可行路径。
1. 引言
历史上,1956 年达特茅斯会议将人工智能系统定义为能够从环境中收集信息并以有用方式与之交互的人工生命体。受这一定义启发,明斯基(Minsky)领导的麻省理工学院团队于 1970 年开发了名为'复制演示(Copy Demo)'的机器人系统,该系统能够观察'积木世界'场景并成功重建所观察到的多面体积木结构。该系统包含观察、规划和操作模块,其研发过程揭示了每个子问题都极具挑战性,需要进一步深入研究。此后,人工智能领域分化为多个专业子领域,这些子领域在各自研究方向上取得了显著进展,但这种过度还原论的研究模式也模糊了人工智能研究的整体目标。
近年来大型语言模型(LLMs)和视觉语言模型(VLMs)的革命性发展,使得构建符合整体论理念的新型人工智能智能体成为可能。本文探索了整合语言能力、视觉认知、上下文记忆、直觉推理和自适应能力的模型,并研究了利用 LLMs 和 VLMs 实现这种整体融合的潜力。在研究过程中,我们还重新审视了基于亚里士多德'终极因(Final Cause)'的系统设计 —— 即'系统存在的目的',这一维度在以往的人工智能发展中可能被忽视。
随着功能强大的预训练 LLMs 和 VLMs 的出现,自然语言处理和计算机视觉领域迎来了复兴。如今,LLMs 已展现出解读现实世界语言数据细微差别的惊人能力,其性能在许多场景下已接近甚至超越人类专业水平(OpenAI, 2023)。近期研究表明,当与特定领域知识和模块结合时,LLMs 可被拓展为各类环境中的智能体,执行复杂动作和任务。这些场景以复杂推理、对智能体自身角色及环境的理解、多步骤规划为特征,考验着智能体在环境约束下做出精细化决策的能力。
在这些初步研究成果的基础上,人工智能领域正处于重大范式转变的临界点 —— 从为被动、结构化任务构建人工智能模型,转向开发能够在多样化、复杂环境中承担动态、智能体化角色的模型。在此背景下,本文深入探索了将 LLMs 和 VLMs 用作智能体的巨大潜力,重点关注兼具语言能力、视觉认知、上下文记忆、直觉推理和自适应能力的模型。将 LLMs 和 VLMs 应用于游戏、机器人技术和医疗保健等领域,不仅为最先进的人工智能系统提供了严格的评估平台,更预示了以智能体为核心的人工智能将对社会和行业产生的变革性影响。当这些智能体化模型被充分利用时,它们将重新定义人类体验并提升运营标准。这些模型所带来的广泛自动化潜力,预示着行业和社会经济格局将发生重大转变。
支撑智能体人工智能(Agent AI)概念、理论背景和现代实现的相关研究成果主要有以下三个方向:
- 大型基础模型:LLMs 和 VLMs 一直是推动通用智能机器研发的核心力量。尽管这些模型基于大规模文本语料训练,但它们出色的问题解决能力并不局限于传统语言处理领域。LLMs 有潜力处理一系列此前被认为仅人类专家或特定领域算法才能完成的复杂任务,从数学推理到专业法律问题解答均有涉猎。近期研究表明,LLMs 可用于为机器人和游戏人工智能生成复杂规划,这标志着 LLMs 作为通用智能体迈出了重要一步。
- 具身人工智能(Embodied AI):多项研究利用 LLMs 执行任务规划,尤其借助 LLMs 的万维网级领域知识和涌现的零样本具象化能力来完成复杂的任务规划与推理。近期机器人学研究也通过将自然语言指令分解为一系列子任务(形式可为自然语言或 Python 代码),再利用底层控制器执行这些子任务,从而借助 LLMs 实现任务规划。此外,这些研究还整合了环境反馈以提升任务性能。
- 交互式学习:专为交互式学习设计的人工智能智能体结合了机器学习技术与用户交互。起初,人工智能智能体基于大规模数据集进行训练,数据集的内容类型取决于智能体的预设功能 —— 例如,面向语言任务的人工智能会基于海量文本语料训练。训练过程采用机器学习算法(可能包括神经网络等深度学习模型),使人工智能能够识别数据中的模式、进行预测并基于训练数据生成响应。人工智能智能体还能从与用户的实时交互中学习,这种交互式学习主要通过以下两种方式实现:





