论文阅读--Agent AI 探索多模态交互的前沿领域（一）

Ne0inhk

23 Mar 2026 — 44 min read

这篇文章是近来介绍 Agent AI 非常全面的一篇综述，围绕多模态交互与通用人工智能（AGI）的发展需求展开，融合了学术研究积累、技术突破与行业应用诉求。整篇文章的结构如下：

摘要

多模态人工智能系统有望在我们的日常生活中普及。让这些系统具备更强交互性的一个有效途径，是将其作为智能体（Agent）嵌入物理与虚拟环境中。目前，现有系统以大型基础模型为核心构建模块来打造具象化智能体（embodied agents）。将智能体嵌入此类环境，能助力模型处理和解读视觉信息与上下文数据 —— 这对于开发更复杂、更具上下文感知能力的人工智能系统至关重要。例如，一个能够感知用户动作、人类行为、环境物体、音频表达及场景整体情绪的系统，可用于指导智能体在特定环境中做出合理响应。
为推动基于智能体的多模态智能研究，本文将 “智能体人工智能（Agent AI）” 定义为一类交互式系统：这类系统能够感知视觉刺激、语言输入及其他基于环境的数据，并能产生有意义的具象化动作。具体而言，我们探索的系统旨在通过整合外部知识、多感官输入和人类反馈，基于 “下一具象化动作预测” 来优化智能体性能。我们认为，通过在真实环境中开发智能体化人工智能系统，可有效减轻大型基础模型的 “幻觉问题”（hallucinations）及其生成与环境不符输出的倾向。
新兴的智能体人工智能领域涵盖了多模态交互中更广泛的具象化（embodied）与智能体化（agentic）特性。除了在物理世界中行动与交互的智能体，我们还展望了一个未来场景：人们能够轻松创建任意虚拟现实或模拟场景，并与嵌入其中的智能体进行交互。

图 1 智能体 AI 正成为通往通用人工智能（AGI）的一条极具前景的路径。智能体 AI 的训练已展现出在物理世界中具备多模态理解的能力。它通过将生成式 AI 与多个独立数据源相结合，提供了一种跨现实无关性训练框架。针对智能体及行为相关任务训练的大型基础模型，在经过跨现实数据训练后，可同时应用于物理世界与虚拟世界。本文对一套可在众多不同领域与应用中感知并执行操作的智能体 AI 系统进行了总体概述，该范式有望成为依托智能体思路实现通用人工智能的一条可行路径。

1. Introduction 引言

历史上，1956 年达特茅斯会议将人工智能系统定义为能够从环境中收集信息并以有用方式与之交互的人工生命体。受这一定义启发，明斯基（Minsky）领导的麻省理工学院团队于 1970 年开发了名为 “复制演示（Copy Demo）” 的机器人系统，该系统能够观察 “积木世界” 场景并成功重建所观察到的多面体积木结构。该系统包含观察、规划和操作模块，其研发过程揭示了每个子问题都极具挑战性，需要进一步深入研究。此后，人工智能领域分化为多个专业子领域，这些子领域在各自研究方向上取得了显著进展，但这种过度还原论的研究模式也模糊了人工智能研究的整体目标。

近年来大型语言模型（LLMs）和视觉语言模型（VLMs）的革命性发展，使得构建符合整体论理念的新型人工智能智能体成为可能。本文探索了整合语言能力、视觉认知、上下文记忆、直觉推理和自适应能力的模型，并研究了利用 LLMs 和 VLMs 实现这种整体融合的潜力。在研究过程中，我们还重新审视了基于亚里士多德 “终极因（Final Cause）” 的系统设计 —— 即 “系统存在的目的”，这一维度在以往的人工智能发展中可能被忽视。

随着功能强大的预训练 LLMs 和 VLMs 的出现，自然语言处理和计算机视觉领域迎来了复兴。如今，LLMs 已展现出解读现实世界语言数据细微差别的惊人能力，其性能在许多场景下已接近甚至超越人类专业水平（OpenAI, 2023）。近期研究表明，当与特定领域知识和模块结合时，LLMs 可被拓展为各类环境中的智能体，执行复杂动作和任务。这些场景以复杂推理、对智能体自身角色及环境的理解、多步骤规划为特征，考验着智能体在环境约束下做出精细化决策的能力。

在这些初步研究成果的基础上，人工智能领域正处于重大范式转变的临界点 —— 从为被动、结构化任务构建人工智能模型，转向开发能够在多样化、复杂环境中承担动态、智能体化角色的模型。在此背景下，本文深入探索了将 LLMs 和 VLMs 用作智能体的巨大潜力，重点关注兼具语言能力、视觉认知、上下文记忆、直觉推理和自适应能力的模型。将 LLMs 和 VLMs 应用于游戏、机器人技术和医疗保健等领域，不仅为最先进的人工智能系统提供了严格的评估平台，更预示了以智能体为核心的人工智能将对社会和行业产生的变革性影响。当这些智能体化模型被充分利用时，它们将重新定义人类体验并提升运营标准。这些模型所带来的广泛自动化潜力，预示着行业和社会经济格局将发生重大转变。

支撑智能体人工智能（Agent AI）概念、理论背景和现代实现的相关研究成果主要有以下三个方向：

大型基础模型：LLMs 和 VLMs 一直是推动通用智能机器研发的核心力量。尽管这些模型基于大规模文本语料训练，但它们出色的问题解决能力并不局限于传统语言处理领域。LLMs 有潜力处理一系列此前被认为仅人类专家或特定领域算法才能完成的复杂任务，从数学推理到专业法律问题解答均有涉猎。近期研究表明，LLMs 可用于为机器人和游戏人工智能生成复杂规划，这标志着 LLMs 作为通用智能体迈出了重要一步。
具身人工智能（Embodied AI）：多项研究利用 LLMs 执行任务规划，尤其借助 LLMs 的万维网级领域知识和涌现的零样本具象化能力来完成复杂的任务规划与推理。近期机器人学研究也通过将自然语言指令分解为一系列子任务（形式可为自然语言或 Python 代码），再利用底层控制器执行这些子任务，从而借助 LLMs 实现任务规划。此外，这些研究还整合了环境反馈以提升任务性能。
交互式学习：专为交互式学习设计的人工智能智能体结合了机器学习技术与用户交互。起初，人工智能智能体基于大规模数据集进行训练，数据集的内容类型取决于智能体的预设功能 —— 例如，面向语言任务的人工智能会基于海量文本语料训练。训练过程采用机器学习算法（可能包括神经网络等深度学习模型），使人工智能能够识别数据中的模式、进行预测并基于训练数据生成响应。人工智能智能体还能从与用户的实时交互中学习，这种交互式学习主要通过以下两种方式实现：

基于反馈的学习：人工智能根据用户的直接反馈调整响应。例如，当用户纠正人工智能的响应时，人工智能可利用这些信息改进未来的输出。
观察式学习：人工智能通过观察用户交互过程进行隐性学习。例如，若用户频繁提出相似问题或以特定方式与人工智能交互，人工智能可能会调整响应以更好地适应这些模式。这种学习方式使人工智能智能体能够理解和处理人类语言、多模态场景、解读跨现实上下文，并生成符合人类用户需求的响应。随着用户交互和反馈的不断积累，人工智能智能体的性能通常会持续提升。这一过程通常由人类操作员或开发人员监督，以确保人工智能的学习方向正确，不会形成偏见或错误模式。

研究概述

多模态智能体人工智能（Multimodal Agent AI, MAA）是一类基于多模态感官输入理解，在特定环境中生成有效动作的系统家族。随着 LLMs 和 VLMs 的兴起，众多 MAA 系统已在基础研究和实际应用等多个领域被提出。尽管这些研究领域通过与各领域的传统技术（如视觉问答、视觉 - 语言导航）整合而迅速发展，但它们在数据收集、基准测试和伦理视角等方面存在共同关注点。本文聚焦于 MAA 的几个代表性研究领域，即多模态技术、游戏（VR/AR/MR）、机器人技术和医疗保健，旨在全面梳理这些领域共同关注的问题。通过本文研究，我们期望读者能够掌握 MAA 的基础知识，并获得推动该领域进一步发展的洞见。具体学习成果包括：

MAA 概述：深入探讨其核心原理及在当代应用中的作用，帮助研究人员全面理解其重要性和应用场景。
方法论：通过游戏、机器人技术和医疗保健领域的案例研究，详细展示 LLMs 和 VLMs 如何增强 MAA 的性能。
性能评估：提供利用相关数据集评估 MAA 的指导，重点关注其有效性和泛化能力。
伦理考量：讨论部署智能体人工智能的社会影响和伦理挑战，强调负责任的开发实践。
新兴趋势与未来挑战：分类梳理各领域的最新进展，并探讨未来发展方向。
基于计算机的动作智能体和通用智能体（GAs）可应用于多种任务。一个真正对用户有价值的通用智能体，必须具备自然的交互能力，并能在广泛的上下文和模态中实现泛化。本文旨在培育活跃的研究生态系统，在智能体人工智能社区中建立共同的认同感和目标感。MAA 具有在各种上下文和模态中广泛应用的潜力，包括接收人类输入。因此，我们相信该智能体人工智能领域能够吸引各类研究人员，促进动态的智能体人工智能社区的发展，并凝聚共同目标。在学术界和工业界知名专家的引领下，我们期望本文能够为所有研究人员提供交互式且丰富的学习体验，包括智能体指导、案例研究、任务实践和实验讨论等内容，确保学习过程全面且富有吸引力。

本文旨在提供智能体人工智能领域当前研究的全面概述。为此，论文剩余部分结构如下：第 2 节概述智能体人工智能如何从相关新兴技术（尤其是大型基础模型）的整合中获益；第 3 节描述我们提出的用于训练智能体人工智能的新范式和框架；第 4 节概述智能体人工智能训练中广泛使用的方法论；第 5 节对各类智能体进行分类和讨论；第 6 节介绍智能体人工智能在游戏、机器人技术和医疗保健领域的应用；第 7 节探讨研究社区为开发多功能智能体人工智能所做的努力 —— 这类智能体能够跨多种模态、领域应用，并弥合模拟到现实的鸿沟；第 8 节讨论智能体人工智能的潜力 —— 它不仅依赖预训练基础模型，还能通过与环境和用户的交互持续学习和自我改进；第 9 节介绍我们为多模态智能体人工智能训练设计的新数据集；第 11 节讨论人工智能智能体的伦理考量、局限性以及本文的社会影响。

2. Agent AI Integration

基于大型语言模型（LLMs）和视觉语言模型（VLMs）的基础模型，尽管在现有研究中已取得一定进展，但在具身人工智能（Embodied AI）领域仍表现出性能局限，尤其在理解、生成、编辑未见过的环境或场景，以及与之交互方面。这些局限导致人工智能智能体（AI Agent）的输出难以达到最优水平。当前以智能体为核心的人工智能建模方法，主要聚焦于可直接获取且定义明确的数据（例如，世界状态的文本或字符串表示），并通常利用大规模预训练中习得的、与领域和环境无关的模式，来预测每个环境中的动作输出。研究表明，基于知识的大型语言模型智能体（LLM Agent）能够提升二维和三维场景的理解、生成与编辑性能，同时优化人机交互效果。通过整合 Agent AI 框架，大型基础模型能够更深入地理解用户输入，进而构建复杂且具有自适应能力的人机交互（HCI）系统。大型语言模型（LLMs）和视觉语言模型（VLMs）的涌现能力，在生成式人工智能、具象化人工智能、多模态学习的知识增强、混合现实生成、文本到视觉编辑，以及游戏或机器人任务中的二维 / 三维仿真人机交互等场景中均发挥着隐性作用。基础模型在 Agent AI 领域的最新进展，正成为解锁具象化智能体通用智能的关键催化剂。大型动作模型（Large Action Models）或智能体 - 视觉 - 语言模型（Agent-Vision-Language Models），为通用型具象化系统（如复杂环境中的规划、问题解决与学习）开辟了新的可能。Agent AI 进一步推动了元宇宙的发展，也为通用人工智能（AGI）的早期形态提供了实现路径。

2.1 Infinite AI Agent

人工智能智能体能够基于其训练数据和输入信息进行解读、预测和响应。尽管这些能力已相当先进且仍在持续提升，但我们必须认识到其局限性，以及训练数据对其性能的影响。人工智能智能体系统通常具备以下能力：

预测建模（Predictive Modeling）：人工智能智能体可基于历史数据和趋势预测可能的结果或建议后续步骤。例如，预测文本的续写内容、问题的答案、机器人的下一步动作，或某个场景的解决方案。
决策制定（Decision Making）：在部分应用场景中，人工智能智能体能够基于推理结果做出决策。通常，智能体会以最有可能实现特定目标为依据进行决策。以推荐系统这类人工智能应用为例，智能体可根据对用户偏好的推理，决定推荐哪些产品或内容。
模糊处理（Handling Ambiguity）：人工智能智能体通常能够通过上下文信息和训练经验推断最可能的解读，从而处理模糊的输入。然而，其处理能力受限于训练数据的范围和所采用的算法。

持续改进（Continuous Improvement）：尽管部分人工智能智能体能够从新数据和交互中学习，但许多大型语言模型在训练完成后，并不会持续更新其知识库或内部表示。它们的推理过程通常仅依赖于训练截止前可获取的数据。
图 2 展示了一种增强型交互式智能体，该智能体具备多模态能力和跨现实无关整合能力，并拥有涌现机制。传统人工智能智能体针对每项新任务都需要收集大量训练数据，这在许多领域可能成本高昂甚至无法实现。在本研究中，我们开发了一种 “无限智能体（Infinite Agent）”，它能够将通用基础模型（例如 GPT-X、DALL-E）中的记忆信息迁移到新的领域或场景中，从而实现物理世界或虚拟世界中的场景理解、生成与交互式编辑。
此类无限智能体在机器人领域的一个应用实例是 RoboGen（Wang et al., 2023d）。在该研究中，研究者提出了一个能够自主运行 “任务命题 - 环境生成 - 技能学习” 循环的流程。RoboGen 的核心目标是将大型模型中蕴含的知识迁移到机器人领域。

图 2 面向跨现实场景中 2D/3D 具身生成与编辑交互的多模态智能体 AI

2.2 Agent AI with Large Foundation Models

近期研究表明，大型基础模型在生成基准数据方面发挥着关键作用 —— 这些基准数据可用于确定智能体在环境约束下的动作。例如，基础模型已被应用于机器人操作和导航任务。具体而言，Black 等人采用图像编辑模型作为高层规划器，生成未来子目标的图像，进而指导底层策略的执行；在机器人导航领域，Shah 等人提出了一种系统，该系统利用大型语言模型（LLM）从文本中识别地标，并通过视觉语言模型（VLM）将这些地标与视觉输入关联起来，从而通过自然语言指令提升导航性能。
此外，基于语言和环境因素生成条件性人类动作的研究也受到了越来越多的关注。已有多项研究提出了相关人工智能系统，这些系统能够生成符合特定语言指令的动作，并能适应不同的三维场景。这一系列研究凸显了生成式模型在增强人工智能智能体跨场景适应性和响应能力方面的巨大潜力。

2.2.1 幻觉 Hallucinations

生成文本的智能体常常容易出现 “幻觉” 现象，即生成的文本毫无意义或与提供的源内容不一致。幻觉一般分成内在幻觉和外在幻觉。内在幻觉指生成的文本与源材料相互矛盾；外在幻觉则是指生成的文本包含源材料中原本不存在的额外信息。
降低语言生成中幻觉发生率的一些有效途径包括采用检索增强生成，或通过外部知识检索为自然语言输出提供依据的其他方法。通常，这些方法通过检索额外的源材料，并提供机制检查生成的响应与源材料之间的矛盾，从而增强语言生成的准确性。
在多模态智能体系统中，视觉语言模型（VLMs）也被证实存在幻觉问题。基于视觉的语言生成产生幻觉的一个常见原因，是过度依赖训练数据中物体与视觉线索的共现关系。仅依赖预训练的大型语言模型（LLMs）或视觉语言模型（VLMs），且仅进行有限的环境特异性微调的人工智能智能体，尤其容易出现幻觉 —— 因为它们依赖预训练模型的内部知识库生成动作，可能无法准确理解其部署环境中的世界状态动态。

2.2.2 偏见与包容 Biases and Inclusivity

基于大型语言模型（LLMs）或大型多模态模型（LMMs）的人工智能智能体，由于其设计和训练过程中存在的固有因素，不可避免地存在偏见。在设计这些人工智能智能体时，我们必须注重包容性，充分考虑所有终端用户和利益相关者的需求。在 Agent AI 领域，包容性指采取一系列措施和原则，确保智能体的响应和交互具有包容性、尊重性，并能适配不同背景的广泛用户群体。以下是智能体偏见与包容性的关键方面：

训练数据（Training Data）：基础模型基于海量互联网文本数据训练，这些数据来源包括书籍、文章、网站等各类文本资源。这些数据往往反映了人类社会中存在的偏见，模型可能会无意中学习并复制这些偏见 —— 包括与种族、性别、民族、宗教及其他个人属性相关的刻板印象、偏见和片面观点。特别是，由于训练数据主要来自互联网，且通常以英文文本为主，模型会隐含地习得西方、受过教育、工业化、富裕和民主（WEIRD）社会的文化规范，而这些社会在互联网上的存在感远超其他群体。然而，我们必须认识到，人类创建的数据集不可能完全摆脱偏见，因为它们往往会反映出数据生成者和汇编者的社会偏见与个人倾向。
历史与文化偏见（Historical and Cultural Biases）：人工智能模型的训练数据来源多样，包含各类文化的历史文本或资料。其中，来自历史来源的训练数据可能包含具有冒犯性或侮辱性的语言，这些语言反映了特定社会的文化规范、态度和偏见。这可能导致模型延续过时的刻板印象，或无法充分理解当代文化的变迁与细微差异。
语言与上下文局限性（Language and Context Limitations）：语言模型可能难以理解和准确呈现语言中的细微差异，例如讽刺、幽默或文化典故，这可能导致在特定语境下出现误解或产生带有偏见的响应。此外，纯文本数据无法捕捉口语中的许多方面，这可能导致人类对语言的理解与模型对语言的理解之间存在脱节。
政策与指南（Policies and Guidelines）：人工智能智能体在严格的政策和指南约束下运行，以确保公平性和包容性。例如，在生成图像时，存在相关规则要求多样化地描绘人物，避免与种族、性别及其他属性相关的刻板印象。
过度泛化（Overgeneralization）：这些模型倾向于基于训练数据中观察到的模式生成响应，这可能导致过度泛化 —— 模型可能会对特定群体产生刻板印象或做出笼统假设。
持续监测与更新（Constant Monitoring and Updating）：人工智能系统会受到持续监测和更新，以解决新出现的偏见或包容性问题。用户反馈和人工智能伦理领域的持续研究在这一过程中发挥着关键作用。
主导观点的放大（Amplification of Dominant Views）：由于训练数据中来自主导文化或群体的内容往往更多，模型可能会更倾向于这些视角，从而可能低估或歪曲少数群体的观点。
伦理与包容性设计（Ethical and Inclusive Design）：人工智能工具的设计应将伦理考量和包容性作为核心原则，包括尊重文化差异、促进多样性，确保人工智能不会延续有害的刻板印象。
用户指南（User Guidelines）：用户也会收到相关指导，了解如何以促进包容性和尊重的方式与人工智能交互，包括避免提出可能导致偏见或不当输出的请求。此外，这也有助于减少模型从用户交互中学习有害内容的风险。
尽管采取了上述措施，人工智能智能体仍然可能存在偏见。Agent AI 领域的研究和开发工作正持续致力于进一步减少这些偏见，提升智能体系统的包容性和公平性。
偏见缓解措施（Efforts to Mitigate Biases）：
多样化且具包容性的训练数据（Diverse and Inclusive Training Data）：努力在训练数据中纳入更多样化、更具包容性的来源。
偏见检测与纠正（Bias Detection and Correction）：持续开展相关研究，聚焦于检测和纠正模型响应中的偏见。
伦理指南与政策（Ethical Guidelines and Policies）：模型通常遵循伦理指南和政策，以减轻偏见，确保交互的尊重性和包容性。
多样化呈现（Diverse Representation）：确保人工智能智能体生成的内容或提供的响应能够反映广泛的人类体验、文化、民族和身份，这在图像生成或叙事构建等场景中尤为重要。
偏见缓解（Bias Mitigation）：积极致力于减少人工智能响应中的偏见，包括与种族、性别、年龄、残疾、性取向及其他个人特征相关的偏见。目标是提供公平、平衡的响应，不延续刻板印象或偏见。
文化敏感性（Cultural Sensitivity）：人工智能被设计为具有文化敏感性，认可并尊重多样化的文化规范、习俗和价值观，包括理解并适当地回应文化典故和细微差异。
可访问性（Accessibility）：确保人工智能智能体对不同能力的用户具有可访问性，包括残障用户。这可能涉及整合相关功能，方便有视觉、听觉、运动或认知障碍的人群进行交互。
基于语言的包容性（Language-based Inclusivity）：支持多种语言和方言，以满足全球用户的需求，并对语言内部的细微差异保持敏感（Liu et al., 2023b）。
伦理且尊重的交互（Ethical and Respectful Interactions）：智能体被编程为以伦理、尊重的方式与所有用户交互，避免产生具有冒犯性、有害性或不尊重的响应。
用户反馈与适配（User Feedback and Adaptation）：纳入用户反馈，持续提升人工智能智能体的包容性和有效性，包括通过交互更好地理解和服务多样化的用户群体。
遵守包容性指南（Compliance with Inclusivity Guidelines）：遵循人工智能智能体领域已确立的包容性指南和标准，这些指南和标准通常由行业团体、伦理委员会或监管机构制定。

尽管做出了这些努力，我们仍需意识到响应中可能存在偏见，并以批判性思维解读这些响应。人工智能智能体技术和伦理实践的持续改进，旨在逐步减少这些偏见。Agent AI 领域包容性的核心目标之一，是创建一个尊重所有用户、对所有用户具有可访问性的智能体，无论其背景或身份如何。

2.2.3 数据隐私与使用 Data Privacy and Usage

人工智能智能体的一个关键伦理考量，涉及理解这些系统如何处理、存储和潜在地检索用户数据。以下是相关关键方面的详细说明：

数据收集、使用与目的（Data Collection, Usage and Purpose）：当利用用户数据改进模型性能时，模型开发者会获取人工智能智能体在实际运行过程中与用户交互所收集的数据。部分系统允许用户通过个人账户或向服务提供商提出请求，查看自己的数据。明确人工智能智能体在交互过程中收集哪些数据至关重要 —— 这些数据可能包括文本输入、用户使用模式、个人偏好，有时还包括更敏感的个人信息。用户还应了解其交互数据的使用方式。如果人工智能持有关于特定个人或群体的错误信息，应建立相应机制，允许用户在发现后协助纠正 —— 这对于确保准确性以及尊重所有用户和群体而言至关重要。检索和分析用户数据的常见用途包括改进用户交互、个性化响应以及系统优化。开发者必须确保数据不被用于用户未同意的用途（如未经请求的营销），这一点极为重要。
存储与安全（Storage and Security）：开发者应明确用户交互数据的存储位置，以及采取了哪些安全措施保护数据免受未授权访问或泄露 —— 包括加密、安全服务器和数据保护协议等。确定智能体数据是否会与第三方共享以及共享的条件也同样关键，这一点应保持透明，且通常需要获得用户同意。
数据删除与留存（Data Deletion and Retention）：用户也需要了解其数据的存储时长以及如何请求删除数据。许多数据保护法规赋予用户 “被遗忘权”，即用户有权请求删除其数据。人工智能智能体必须遵守欧盟的《通用数据保护条例》（GDPR）或加利福尼亚州的《加州消费者隐私法》（CCPA）等数据保护法规，这些法规规范了数据处理实践以及用户对其个人数据的权利。
数据可移植性与隐私政策（Data Portability and Privacy Policy）：此外，开发者必须制定人工智能智能体的隐私政策，向用户说明数据处理方式，包括数据收集、使用、存储和用户权利等细节。开发者应确保在收集数据（尤其是敏感信息）前获得用户同意。用户通常有权选择退出或限制其提供的数据范围。在部分司法管辖区，用户甚至有权请求以可转移的格式获取其数据，以便转移到其他服务提供商。
匿名化（Anonymization）：用于更广泛分析或人工智能训练的数据，理想情况下应进行匿名化处理，以保护个人身份。开发者必须了解其人工智能智能体在交互过程中如何检索和使用历史用户数据 —— 这可能是为了实现个性化或提高响应的相关性。

总之，理解人工智能智能体的数据隐私，需要明确用户数据的收集、使用、存储和保护方式，并确保用户了解其在访问、纠正和删除数据方面的权利。同时，了解用户和人工智能智能体检索数据的机制，对于全面理解数据隐私也至关重要。

图 3 涌现式交互机制示例利用智能体从候选文本中识别与图像相关的内容。该任务通过来自网络的多模态 AI 智能体以及人工标注的知识交互样本，来融合外部世界信息。

2.2.4 可解释性与可说明性 Interpretability and Explainability

模仿学习→解耦（Imitation Learning → Decoupling）：智能体通常通过强化学习（RL）或模仿学习（IL）中的持续反馈循环进行训练，初始策略为随机初始化。然而，这种方法在陌生环境中获取初始奖励时面临挑战，尤其是在奖励稀疏或仅在长步骤交互结束时才能获得奖励的场景中。因此，一种更优的解决方案是使用通过模仿学习训练的无限记忆智能体（infinite-memory agent），该智能体能够从专家数据中学习策略，借助涌现的架构改进对未见过环境空间的探索和利用，如图 3 所示。借助专家特征，智能体能够更好地探索和利用未见过的环境空间。Agent AI 可以直接从专家数据中学习策略和新的范式流程。
传统的模仿学习让智能体模仿专家演示者的行为来学习策略。然而，直接学习专家策略并非总是最佳方案，因为智能体在未见过的场景中可能难以泛化。为解决这一问题，我们提出通过上下文提示（in-context prompt）或隐含奖励函数（implicit reward function）学习智能体，该奖励函数能够捕捉专家行为的关键方面，如图 3 所示。这使得无限记忆智能体具备从专家演示中习得的物理世界行为数据，以用于任务执行。该方法有助于克服现有模仿学习的缺陷，例如需要大量专家数据以及在复杂任务中可能出现的错误。Agent AI 的核心思想包括两部分：1）收集物理世界专家演示（以状态 - 动作对形式呈现）的无限智能体；2）模拟智能体生成器的虚拟环境。模仿智能体生成模仿专家行为的动作，而智能体通过减小专家动作与所学策略生成动作之间的差异损失函数，学习从状态到动作的映射策略。
解耦→泛化（Decoupling → Generalization）：智能体并非依赖特定任务的奖励函数，而是从专家演示中学习 —— 专家演示提供了涵盖任务各个方面的多样化状态 - 动作对。随后，智能体通过模仿专家行为，学习从状态到动作的映射策略。模仿学习中的 “解耦” 指将学习过程与特定任务的奖励函数分离，使策略能够在不同任务中泛化，而无需明确依赖特定任务的奖励函数。通过解耦，智能体可以从专家演示中学习，获得能够适应多种场景的策略。解耦支持迁移学习，即一个领域中学习的策略只需进行少量微调即可适配其他领域。通过学习不依赖特定奖励函数的通用策略，智能体可以利用在一个任务中习得的知识，在其他相关任务中表现出色。由于智能体不依赖特定奖励函数，因此无需大量重新训练即可适应奖励函数或环境的变化，这使得所学策略在不同环境中更具鲁棒性和泛化能力。在此背景下，解耦指在学习过程中分离两项任务：学习奖励函数和学习最优策略。
泛化→涌现行为（Generalization → Emergent Behavior）：泛化解释了复杂的特性或行为如何从简单的组件或规则中涌现。其核心思想在于识别支配系统行为的基本元素或规则（例如单个神经元或基本算法），进而观察这些简单组件或规则之间的交互方式。这些组件的交互往往会导致复杂行为的涌现，而仅通过分析单个组件无法预测这些复杂行为。跨不同复杂程度的泛化，使系统能够学习适用于这些复杂程度的通用原则，进而产生涌现特性。这使系统能够适应新场景，展现出从简单规则中涌现复杂行为的能力。此外，跨不同复杂程度的泛化有助于知识从一个领域迁移到另一个领域，从而在系统适应新环境的过程中，促进复杂行为的涌现。

2.2.5 推理增强（Inference Augmentation）

人工智能智能体的推理能力体现在其基于训练数据和输入信息进行解读、预测和响应的能力。尽管这些能力已相当先进且持续提升，但我们必须认识到其局限性，以及训练数据对其性能的影响。特别是在大型语言模型的背景下，推理能力指模型基于训练数据和输入信息得出结论、进行预测和生成响应的能力。人工智能智能体中的推理增强，指通过额外的工具、技术或数据增强人工智能的自然推理能力，以提升其性能、准确性和实用性。这在复杂决策场景或处理细微、专业内容时尤为重要。以下是推理增强的几个关键来源：

数据丰富化（Data Enrichment）：整合额外的（通常是外部的）数据源，提供更多上下文或背景信息，有助于人工智能智能体做出更全面的推理，尤其是在训练数据有限的领域。例如，人工智能智能体可以从对话或文本的上下文中推断含义，分析给定信息以理解用户查询的意图和相关细节。这些模型擅长识别数据中的模式，并利用这种能力基于训练过程中习得的模式，对语言、用户行为或其他相关现象进行推理。
算法增强（Algorithm Enhancement）：改进人工智能的底层算法，以实现更优的推理。这可能涉及使用更先进的机器学习模型、整合不同类型的人工智能（如将自然语言处理与图像识别相结合），或更新算法以更好地处理复杂任务。语言模型中的推理涉及理解和生成人类语言，包括把握语气、意图和不同语言结构的细微差异。
人机协同（Human-in-the-Loop, HITL）：引入人类输入以增强人工智能的推理能力，这在人类判断至关重要的领域（如伦理考量、创意任务或模糊场景）尤为有用。人类可以提供指导、纠正错误，或提供智能体自身无法推断的见解。
实时反馈整合（Real-Time Feedback Integration）：利用来自用户或环境的实时反馈增强推理，是提升推理过程性能的另一种有效方法。例如，人工智能可以根据用户的实时响应或动态系统中的变化条件调整其推荐；或者，若智能体在模拟环境中采取的动作违反了某些规则，可以动态给予反馈以帮助其纠正。
跨领域知识迁移（Cross-Domain Knowledge Transfer）：利用一个领域的知识或模型改进另一个领域的推理，这在生成特定学科的输出时尤为有帮助。例如，为语言翻译开发的技术可能适用于代码生成，或来自医疗诊断的见解可能有助于提升机械的预测性维护水平。
特定用例定制（Customization for Specific Use Cases）：针对特定应用或行业定制人工智能的推理能力，可能涉及在专业数据集上训练人工智能，或微调模型以更好地适配特定任务（如法律分析、医疗诊断或财务预测）。由于不同领域的语言或信息存在显著差异，针对特定领域的信息微调智能体可能会带来显著益处。
伦理与偏见考量（Ethical and Bias Considerations）：确保增强过程不会引入新的偏见或伦理问题至关重要。这需要仔细考量额外数据的来源，或新的推理增强算法对公平性和透明度的影响。在进行推理（尤其是涉及敏感话题时），人工智能智能体有时必须权衡伦理考量，包括避免有害的刻板印象、尊重隐私并确保公平性。
持续学习与适配（Continuous Learning and Adaptation）：定期更新和完善人工智能的能力，以跟上新的发展、变化的数据环境和不断演变的用户需求。
总之，人工智能智能体中的推理增强，指通过额外数据、改进的算法、人类输入及其他技术，增强其天然的推理能力。根据具体用例，这种增强对于处理复杂任务和确保智能体输出的准确性通常至关重要。

2.2.6 监管（Regulation）

近年来，Agent AI 取得了显著进展，其与具象化系统的整合，为通过更具沉浸感、动态性和吸引力的方式与智能体交互开辟了新的可能。为加快 Agent AI 的开发进程并减轻繁琐的开发工作，我们提议开发下一代人工智能驱动的智能体交互流程，构建人机协作系统，使人类和机器能够进行有意义的沟通与交互。该系统可以利用大型语言模型（LLMs）或视觉语言模型（VLMs）的对话能力和丰富的动作库，与人类玩家交流并识别其需求，随后根据请求执行相应动作提供帮助。
当将大型语言模型（LLMs）/ 视觉语言模型（VLMs）应用于人机协作系统时，必须注意这些模型本质上是 “黑箱”，会生成不可预测的输出。这种不确定性在物理场景（如操作实际机器人）中可能会带来严重风险。解决这一挑战的一种方法是通过提示工程（prompt engineering）限制大型语言模型（LLM）/ 视觉语言模型（VLM）的关注范围。例如，在基于指令的机器人任务规划中，有研究表明，在提示中提供环境信息比仅依赖文本能产生更稳定的输出。这一研究结果得到了明斯基（Minsky）的人工智能框架理论（Minsky, 1975）的支持 —— 该理论认为，大型语言模型（LLMs）/ 视觉语言模型（VLMs）需要解决的问题空间由给定的提示定义。另一种方法是设计提示，使大型语言模型（LLMs）/ 视觉语言模型（VLMs）在输出中包含解释性文本，让用户了解模型的关注重点或识别结果。此外，添加一个更高层级的模块，允许在人类指导下进行执行前验证和修改，也有助于推动此类系统的运行（图 4）。

图 4 本系统为（Wake 等人，2023c）所开发的机器人示教系统。（左）系统工作流：该流程包含三个步骤：任务规划：ChatGPT 根据指令与环境信息规划机器人任务；演示操作：用户以视觉方式演示动作序列。所有步骤均需经用户审核，若任一步骤执行失败或存在缺陷，可根据需要回溯至先前步骤进行修正。（右）网页应用界面：支持演示数据的上传，以及用户与 ChatGPT 之间的实时交互。

2.3 面向涌现能力的 Agent AI（Agent AI for Emergent Abilities）

尽管交互式 Agent AI 系统的应用日益广泛，但大多数现有方法在未见过的环境或场景中仍面临泛化性能的挑战。当前的建模实践要求开发者为每个领域准备大量数据集，以进行模型微调或预训练；然而，这一过程成本高昂，对于新领域而言甚至可能无法实现。为解决这一问题，我们构建了交互式智能体，该智能体利用通用基础模型（如 ChatGPT、DALL-E、GPT-4 等）的知识 - 记忆能力，适用于新场景，特别是用于构建人机协作空间。我们发现了一种涌现机制 —— 我们将其命名为 “知识推理交互混合现实（Mixed Reality with Knowledge Inference Interaction）”，该机制能够促进人类与智能体协作，解决复杂现实世界环境中的挑战性任务，并支持探索未见过的环境以适配虚拟现实。通过这一机制，智能体学习：
1）跨模态微反应（micro-reactions in cross-modality）：从显性网络资源中收集每个交互任务（如理解未见过的场景）的相关个体知识，并通过预训练模型的输出生成隐含推断；
2）现实无关宏行为（macro-behavior in reality-agnostic）：改进语言和多模态领域的交互维度与模式，并基于特定角色、特定目标变量进行调整，影响混合现实和大型语言模型（LLMs）中协作信息的多样化。
我们探索了知识引导的交互式协同效应任务，结合多种 OpenAI 模型进行协作式场景生成，并展示了交互式智能体系统如何在我们的设定中进一步提升大型基础模型的性能。该系统整合并提升了复杂自适应人工智能系统的泛化深度、意识性和可解释性。