Agent AI 探索多模态交互前沿领域(一)
综述了 Agent AI 在多模态交互与通用人工智能(AGI)领域的进展。文章探讨了基于大型语言模型(LLMs)和视觉语言模型(VLMs)的智能体系统,涵盖具身智能、交互式学习及跨现实场景应用。重点分析了幻觉、偏见、数据隐私、可解释性等伦理挑战,并介绍了推理增强与监管机制。通过游戏、机器人及医疗案例,展示了智能体在复杂环境中的泛化能力与未来发展方向。

综述了 Agent AI 在多模态交互与通用人工智能(AGI)领域的进展。文章探讨了基于大型语言模型(LLMs)和视觉语言模型(VLMs)的智能体系统,涵盖具身智能、交互式学习及跨现实场景应用。重点分析了幻觉、偏见、数据隐私、可解释性等伦理挑战,并介绍了推理增强与监管机制。通过游戏、机器人及医疗案例,展示了智能体在复杂环境中的泛化能力与未来发展方向。

本文是一篇关于 Agent AI 的全面综述,围绕多模态交互与通用人工智能(AGI)的发展需求展开,融合了学术研究积累、技术突破与行业应用诉求。整篇文章的结构如下:
多模态人工智能系统有望在我们的日常生活中普及。让这些系统具备更强交互性的一个有效途径,是将其作为智能体(Agent)嵌入物理与虚拟环境中。目前,现有系统以大型基础模型为核心构建模块来打造具象化智能体(embodied agents)。将智能体嵌入此类环境,能助力模型处理和解读视觉信息与上下文数据 —— 这对于开发更复杂、更具上下文感知能力的人工智能系统至关重要。例如,一个能够感知用户动作、人类行为、环境物体、音频表达及场景整体情绪的系统,可用于指导智能体在特定环境中做出合理响应。 为推动基于智能体的多模态智能研究,本文将'智能体人工智能(Agent AI)'定义为一类交互式系统:这类系统能够感知视觉刺激、语言输入及其他基于环境的数据,并能产生有意义的具象化动作。具体而言,我们探索的系统旨在通过整合外部知识、多感官输入和人类反馈,基于'下一具象化动作预测'来优化智能体性能。我们认为,通过在真实环境中开发智能体化人工智能系统,可有效减轻大型基础模型的'幻觉问题'(hallucinations)及其生成与环境不符输出的倾向。 新兴的智能体人工智能领域涵盖了多模态交互中更广泛的具象化(embodied)与智能体化(agentic)特性。除了在物理世界中行动与交互的智能体,我们还展望了一个未来场景:人们能够轻松创建任意虚拟现实或模拟场景,并与嵌入其中的智能体进行交互。

历史上,1956 年达特茅斯会议将人工智能系统定义为能够从环境中收集信息并以有用方式与之交互的人工生命体。受这一定义启发,明斯基(Minsky)领导的麻省理工学院团队于 1970 年开发了名为'复制演示(Copy Demo)'的机器人系统,该系统能够观察'积木世界'场景并成功重建所观察到的多面体积木结构。该系统包含观察、规划和操作模块,其研发过程揭示了每个子问题都极具挑战性,需要进一步深入研究。此后,人工智能领域分化为多个专业子领域,这些子领域在各自研究方向上取得了显著进展,但这种过度还原论的研究模式也模糊了人工智能研究的整体目标。
近年来大型语言模型(LLMs)和视觉语言模型(VLMs)的革命性发展,使得构建符合整体论理念的新型人工智能智能体成为可能。本文探索了整合语言能力、视觉认知、上下文记忆、直觉推理和自适应能力的模型,并研究了利用 LLMs 和 VLMs 实现这种整体融合的潜力。在研究过程中,我们还重新审视了基于亚里士多德'终极因(Final Cause)'的系统设计 —— 即'系统存在的目的',这一维度在以往的人工智能发展中可能被忽视。
随着功能强大的预训练 LLMs 和 VLMs 的出现,自然语言处理和计算机视觉领域迎来了复兴。如今,LLMs 已展现出解读现实世界语言数据细微差别的惊人能力,其性能在许多场景下已接近甚至超越人类专业水平(OpenAI, 2023)。近期研究表明,当与特定领域知识和模块结合时,LLMs 可被拓展为各类环境中的智能体,执行复杂动作和任务。这些场景以复杂推理、对智能体自身角色及环境的理解、多步骤规划为特征,考验着智能体在环境约束下做出精细化决策的能力。
在这些初步研究成果的基础上,人工智能领域正处于重大范式转变的临界点 —— 从为被动、结构化任务构建人工智能模型,转向开发能够在多样化、复杂环境中承担动态、智能体化角色的模型。在此背景下,本文深入探索了将 LLMs 和 VLMs 用作智能体的巨大潜力,重点关注兼具语言能力、视觉认知、上下文记忆、直觉推理和自适应能力的模型。将 LLMs 和 VLMs 应用于游戏、机器人技术和医疗保健等领域,不仅为最先进的人工智能系统提供了严格的评估平台,更预示了以智能体为核心的人工智能将对社会和行业产生的变革性影响。当这些智能体化模型被充分利用时,它们将重新定义人类体验并提升运营标准。这些模型所带来的广泛自动化潜力,预示着行业和社会经济格局将发生重大转变。
支撑智能体人工智能(Agent AI)概念、理论背景和现代实现的相关研究成果主要有以下三个方向:
多模态智能体人工智能(Multimodal Agent AI, MAA)是一类基于多模态感官输入理解,在特定环境中生成有效动作的系统家族。随着 LLMs 和 VLMs 的兴起,众多 MAA 系统已在基础研究和实际应用等多个领域被提出。尽管这些研究领域通过与各领域的传统技术(如视觉问答、视觉 - 语言导航)整合而迅速发展,但它们在数据收集、基准测试和伦理视角等方面存在共同关注点。本文聚焦于 MAA 的几个代表性研究领域,即多模态技术、游戏(VR/AR/MR)、机器人技术和医疗保健,旨在全面梳理这些领域共同关注的问题。通过本文研究,我们期望读者能够掌握 MAA 的基础知识,并获得推动该领域进一步发展的洞见。具体学习成果包括:
基于计算机的动作智能体和通用智能体(GAs)可应用于多种任务。一个真正对用户有价值的通用智能体,必须具备自然的交互能力,并能在广泛的上下文和模态中实现泛化。本文旨在培育活跃的研究生态系统,在智能体人工智能社区中建立共同的认同感和目标感。MAA 具有在各种上下文和模态中广泛应用的潜力,包括接收人类输入。因此,我们相信该智能体人工智能领域能够吸引各类研究人员,促进动态的智能体人工智能社区的发展,并凝聚共同目标。在学术界和工业界知名专家的引领下,我们期望本文能够为所有研究人员提供交互式且丰富的学习体验,包括智能体指导、案例研究、任务实践和实验讨论等内容,确保学习过程全面且富有吸引力。
本文旨在提供智能体人工智能领域当前研究的全面概述。为此,论文剩余部分结构如下:第 2 节概述智能体人工智能如何从相关新兴技术(尤其是大型基础模型)的整合中获益;第 3 节描述我们提出的用于训练智能体人工智能的新范式和框架;第 4 节概述智能体人工智能训练中广泛使用的方法论;第 5 节对各类智能体进行分类和讨论;第 6 节介绍智能体人工智能在游戏、机器人技术和医疗保健领域的应用;第 7 节探讨研究社区为开发多功能智能体人工智能所做的努力 —— 这类智能体能够跨多种模态、领域应用,并弥合模拟到现实的鸿沟;第 8 节讨论智能体人工智能的潜力 —— 它不仅依赖预训练基础模型,还能通过与环境和用户的交互持续学习和自我改进;第 9 节介绍我们为多模态智能体人工智能训练设计的新数据集;第 11 节讨论人工智能智能体的伦理考量、局限性以及本文的社会影响。
基于大型语言模型(LLMs)和视觉语言模型(VLMs)的基础模型,尽管在现有研究中已取得一定进展,但在具身人工智能(Embodied AI)领域仍表现出性能局限,尤其在理解、生成、编辑未见过的环境或场景,以及与之交互方面。这些局限导致人工智能智能体(AI Agent)的输出难以达到最优水平。当前以智能体为核心的人工智能建模方法,主要聚焦于可直接获取且定义明确的数据(例如,世界状态的文本或字符串表示),并通常利用大规模预训练中习得的、与领域和环境无关的模式,来预测每个环境中的动作输出。研究表明,基于知识的大型语言模型智能体(LLM Agent)能够提升二维和三维场景的理解、生成与编辑性能,同时优化人机交互效果。通过整合 Agent AI 框架,大型基础模型能够更深入地理解用户输入,进而构建复杂且具有自适应能力的人机交互(HCI)系统。大型语言模型(LLMs)和视觉语言模型(VLMs)的涌现能力,在生成式人工智能、具象化人工智能、多模态学习的知识增强、混合现实生成、文本到视觉编辑,以及游戏或机器人任务中的二维 / 三维仿真人机交互等场景中均发挥着隐性作用。基础模型在 Agent AI 领域的最新进展,正成为解锁具象化智能体通用智能的关键催化剂。大型动作模型(Large Action Models)或智能体 - 视觉 - 语言模型(Agent-Vision-Language Models),为通用型具象化系统(如复杂环境中的规划、问题解决与学习)开辟了新的可能。Agent AI 进一步推动了元宇宙的发展,也为通用人工智能(AGI)的早期形态提供了实现路径。
人工智能智能体能够基于其训练数据和输入信息进行解读、预测和响应。尽管这些能力已相当先进且仍在持续提升,但我们必须认识到其局限性,以及训练数据对其性能的影响。人工智能智能体系统通常具备以下能力:
图 2 展示了一种增强型交互式智能体,该智能体具备多模态能力和跨现实无关整合能力,并拥有涌现机制。传统人工智能智能体针对每项新任务都需要收集大量训练数据,这在许多领域可能成本高昂甚至无法实现。在本研究中,我们开发了一种'无限智能体(Infinite Agent)',它能够将通用基础模型(例如 GPT-X、DALL-E)中的记忆信息迁移到新的领域或场景中,从而实现物理世界或虚拟世界中的场景理解、生成与交互式编辑。
此类无限智能体在机器人领域的一个应用实例是 RoboGen(Wang et al., 2023d)。在该研究中,研究者提出了一个能够自主运行'任务命题 - 环境生成 - 技能学习'循环的流程。RoboGen 的核心目标是将大型模型中蕴含的知识迁移到机器人领域。

近期研究表明,大型基础模型在生成基准数据方面发挥着关键作用 —— 这些基准数据可用于确定智能体在环境约束下的动作。例如,基础模型已被应用于机器人操作和导航任务。具体而言,Black 等人采用图像编辑模型作为高层规划器,生成未来子目标的图像,进而指导底层策略的执行;在机器人导航领域,Shah 等人提出了一种系统,该系统利用大型语言模型(LLM)从文本中识别地标,并通过视觉语言模型(VLM)将这些地标与视觉输入关联起来,从而通过自然语言指令提升导航性能。
此外,基于语言和环境因素生成条件性人类动作的研究也受到了越来越多的关注。已有多项研究提出了相关人工智能系统,这些系统能够生成符合特定语言指令的动作,并能适应不同的三维场景。这一系列研究凸显了生成式模型在增强人工智能智能体跨场景适应性和响应能力方面的巨大潜力。
生成文本的智能体常常容易出现'幻觉'现象,即生成的文本毫无意义或与提供的源内容不一致。幻觉一般分成内在幻觉和外在幻觉。内在幻觉指生成的文本与源材料相互矛盾;外在幻觉则是指生成的文本包含源材料中原本不存在的额外信息。
降低语言生成中幻觉发生率的一些有效途径包括采用检索增强生成,或通过外部知识检索为自然语言输出提供依据的其他方法。通常,这些方法通过检索额外的源材料,并提供机制检查生成的响应与源材料之间的矛盾,从而增强语言生成的准确性。
在多模态智能体系统中,视觉语言模型(VLMs)也被证实存在幻觉问题。基于视觉的语言生成产生幻觉的一个常见原因,是过度依赖训练数据中物体与视觉线索的共现关系。仅依赖预训练的大型语言模型(LLMs)或视觉语言模型(VLMs),且仅进行有限的环境特异性微调的人工智能智能体,尤其容易出现幻觉 —— 因为它们依赖预训练模型的内部知识库生成动作,可能无法准确理解其部署环境中的世界状态动态。
基于大型语言模型(LLMs)或大型多模态模型(LMMs)的人工智能智能体,由于其设计和训练过程中存在的固有因素,不可避免地存在偏见。在设计这些人工智能智能体时,我们必须注重包容性,充分考虑所有终端用户和利益相关者的需求。在 Agent AI 领域,包容性指采取一系列措施和原则,确保智能体的响应和交互具有包容性、尊重性,并能适配不同背景的广泛用户群体。以下是智能体偏见与包容性的关键方面:
尽管采取了上述措施,人工智能智能体仍然可能存在偏见。Agent AI 领域的研究和开发工作正持续致力于进一步减少这些偏见,提升智能体系统的包容性和公平性。
偏见缓解措施(Efforts to Mitigate Biases):
尽管做出了这些努力,我们仍需意识到响应中可能存在偏见,并以批判性思维解读这些响应。人工智能智能体技术和伦理实践的持续改进,旨在逐步减少这些偏见。Agent AI 领域包容性的核心目标之一,是创建一个尊重所有用户、对所有用户具有可访问性的智能体,无论其背景或身份如何。
人工智能智能体的一个关键伦理考量,涉及理解这些系统如何处理、存储和潜在地检索用户数据。以下是相关关键方面的详细说明:
总之,理解人工智能智能体的数据隐私,需要明确用户数据的收集、使用、存储和保护方式,并确保用户了解其在访问、纠正和删除数据方面的权利。同时,了解用户和人工智能智能体检索数据的机制,对于全面理解数据隐私也至关重要。

人工智能智能体的推理能力体现在其基于训练数据和输入信息进行解读、预测和响应的能力。尽管这些能力已相当先进且持续提升,但我们必须认识到其局限性,以及训练数据对其性能的影响。特别是在大型语言模型的背景下,推理能力指模型基于训练数据和输入信息得出结论、进行预测和生成响应的能力。人工智能智能体中的推理增强,指通过额外的工具、技术或数据增强人工智能的自然推理能力,以提升其性能、准确性和实用性。这在复杂决策场景或处理细微、专业内容时尤为重要。以下是推理增强的几个关键来源:
总之,人工智能智能体中的推理增强,指通过额外数据、改进的算法、人类输入及其他技术,增强其天然的推理能力。根据具体用例,这种增强对于处理复杂任务和确保智能体输出的准确性通常至关重要。
近年来,Agent AI 取得了显著进展,其与具象化系统的整合,为通过更具沉浸感、动态性和吸引力的方式与智能体交互开辟了新的可能。为加快 Agent AI 的开发进程并减轻繁琐的开发工作,我们提议开发下一代人工智能驱动的智能体交互流程,构建人机协作系统,使人类和机器能够进行有意义的沟通与交互。该系统可以利用大型语言模型(LLMs)或视觉语言模型(VLMs)的对话能力和丰富的动作库,与人类玩家交流并识别其需求,随后根据请求执行相应动作提供帮助。
当将大型语言模型(LLMs)/ 视觉语言模型(VLMs)应用于人机协作系统时,必须注意这些模型本质上是'黑箱',会生成不可预测的输出。这种不确定性在物理场景(如操作实际机器人)中可能会带来严重风险。解决这一挑战的一种方法是通过提示工程(prompt engineering)限制大型语言模型(LLM)/ 视觉语言模型(VLM)的关注范围。例如,在基于指令的机器人任务规划中,有研究表明,在提示中提供环境信息比仅依赖文本能产生更稳定的输出。这一研究结果得到了明斯基(Minsky)的人工智能框架理论(Minsky, 1975)的支持 —— 该理论认为,大型语言模型(LLMs)/ 视觉语言模型(VLMs)需要解决的问题空间由给定的提示定义。另一种方法是设计提示,使大型语言模型(LLMs)/ 视觉语言模型(VLMs)在输出中包含解释性文本,让用户了解模型的关注重点或识别结果。此外,添加一个更高层级的模块,允许在人类指导下进行执行前验证和修改,也有助于推动此类系统的运行(图 4)。

尽管交互式 Agent AI 系统的应用日益广泛,但大多数现有方法在未见过的环境或场景中仍面临泛化性能的挑战。当前的建模实践要求开发者为每个领域准备大量数据集,以进行模型微调或预训练;然而,这一过程成本高昂,对于新领域而言甚至可能无法实现。为解决这一问题,我们构建了交互式智能体,该智能体利用通用基础模型(如 ChatGPT、DALL-E、GPT-4 等)的知识 - 记忆能力,适用于新场景,特别是用于构建人机协作空间。我们发现了一种涌现机制 —— 我们将其命名为'知识推理交互混合现实(Mixed Reality with Knowledge Inference Interaction)',该机制能够促进人类与智能体协作,解决复杂现实世界环境中的挑战性任务,并支持探索未见过的环境以适配虚拟现实。通过这一机制,智能体学习: 1)跨模态微反应(micro-reactions in cross-modality):从显性网络资源中收集每个交互任务(如理解未见过的场景)的相关个体知识,并通过预训练模型的输出生成隐含推断; 2)现实无关宏行为(macro-behavior in reality-agnostic):改进语言和多模态领域的交互维度与模式,并基于特定角色、特定目标变量进行调整,影响混合现实和大型语言模型(LLMs)中协作信息的多样化。
我们探索了知识引导的交互式协同效应任务,结合多种 OpenAI 模型进行协作式场景生成,并展示了交互式智能体系统如何在我们的设定中进一步提升大型基础模型的性能。该系统整合并提升了复杂自适应人工智能系统的泛化深度、意识性和可解释性。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online