多模态交互智能体全面解析
多模态 AI 系统很可能会成为我们日常生活中无处不在的存在。使这些系统更具交互性的一种有希望的方法是将它们作为物理和虚拟环境中的智能体。目前,系统利用现有的基础模型作为创建具身智能体的基本构建块。将智能体嵌入这些环境中,有助于模型处理和解释视觉和上下文数据,这对于创建更复杂和上下文感知的 AI 系统至关重要。
1.1 动机
历史上,AI 系统在 1956 年达特茅斯会议上被定义为能够从环境中收集信息并以有用的方式与之交互的人工生命形式。受到这个定义的启发,Minsky 的 MIT 团队在 1970 年构建了一个名为'Copy Demo'的机器人系统,该系统观察'积木世界'场景并成功重建了观察到的多面体积木结构。该系统包括观察、规划和操纵模块,揭示了这些子问题每个都非常具有挑战性,需要进一步的研究。
为了超越现状,有必要回归到受亚里士多德整体论启发的 AI 基础。幸运的是,最近在大型语言模型(LLMs)和视觉语言模型(VLMs)方面的革命使得创建符合整体理念的新型 AI 智能体成为可能。抓住这个机会,本文探讨了集成语言熟练度、视觉认知、上下文记忆、直观推理和适应性的模型。
随着强大的预训练 LLMs 和 VLMs 的出现,自然语言处理和计算机视觉领域迎来了复兴。LLMs 现在展示了令人印象深刻的解读现实世界语言数据细微差别的能力。最近,研究人员已经表明,LLMs 可以扩展为在各种环境中作为智能体行动,执行复杂的动作和任务。
在这些初步努力的基础上,AI 社区正处于一个重要的范式转变的边缘,从创建被动、结构化任务的 AI 模型转变为能够在多样化和复杂环境中承担动态、智能体角色的模型。
1.2 背景
大型基础模型
LLMs 和 VLMs 一直在推动开发通用智能机器(Bubeck 等人,2023;Mirchandani 等人,2023)的努力。尽管它们是使用大型文本语料库进行训练的,但它们卓越的问题解决能力并不局限于规范的语言处理领域。LLMs 可能解决以前被认为是专属于人类专家或特定领域算法处理的复杂任务,范围从数学推理到回答专业法律问题。
具身 AI
一些工作利用 LLMs 执行任务规划,特别是 LLMs 的全球规模领域知识和出现零样本具身能力,执行复杂的任务规划和推理。最近机器人研究也利用 LLMs 执行任务规划,通过将自然语言指令分解为子任务序列,无论是以自然语言形式还是 Python 代码形式,然后使用低级控制器执行这些子任务。
交互学习
设计用于交互学习的 AI 智能体使用机器学习技术和用户交互的组合。最初,AI 智能体在大型数据集上进行训练。训练涉及使用机器学习算法,可能包括深度学习模型如神经网络。这些训练模型使 AI 能够识别模式,进行预测,并基于其训练数据生成响应。AI 智能体也可以通过与用户的实时交互学习。这种交互学习可以以各种方式发生:
- 基于反馈的学习:AI 根据直接用户反馈调整其响应。
- 观察学习:AI 观察用户交互并隐式学习。
1.3 概述
多模态智能体 AI(MAA)是一类系统,它们基于对多模态感官输入的理解,在特定环境中生成有效动作。随着大型语言模型(LLMs)和视觉语言模型(VLMs)的出现,提出了许多 MAA 系统,涵盖从基础研究到应用的各个领域。
具体的学习成果包括:
- MAA 概述:深入其原理和在当代应用中的角色。
- 方法论:通过在游戏、机器人技术和医疗保健中的案例研究,详细说明 LLMs 和 VLMs 如何增强 MAAs。
- 性能评估:使用相关数据集评估 MAAs 的指导。
- 伦理考虑:讨论部署智能体 AI 的社会影响和伦理领导者板块。
2 智能体 AI 整合
基于 LLMs 和 VLMs 的基础模型,其在具身 AI 领域的性能仍然有限,特别是在理解、生成、编辑和交互方面,对于未见环境或场景。因此,这些限制导致 AI 智能体的输出次优。
当前以智能体为中心的 AI 建模方法侧重于直接可访问和明确定义的数据,通常使用从大规模预训练中学到的领域和环境独立模式来预测每个环境的行动输出。
通过整合智能体 AI 框架,大型基础模型能够更深入地理解用户输入,形成复杂和适应性强的人机交互系统。智能体 AI 在基础模型方面的最新进展是解锁具身智能体通用智能的催化剂。
2.1 无限智能体
AI 智能体有能力根据其训练和输入数据进行解释、预测和响应。虽然这些能力先进且持续改进,但重要的是要认识到它们的局限性以及它们所训练的基础数据的影响。
我们在图 2 中展示了增强的交互智能体,用于多模态和跨现实不可知的整合,具有紧急机制。一个 AI 智能体需要为每个新任务收集广泛的训练数据,这在许多领域可能代价昂贵或不可能。在这项研究中,我们开发了一个无限智能体,它学习将记忆信息从一般基础模型转移到新领域或场景中,用于场景理解、生成和物理或虚拟世界中的交互编辑。
2.2 带有大型基础模型的智能体 AI
最近研究表明,大型基础模型在创建作为智能体在环境强加约束中行动的基准数据方面发挥着至关重要的作用。例如,使用基础模型进行机器人操纵和导航。
2.2.1 幻觉
生成文本的智能体通常容易出现幻觉,即生成的文本无意义或与提供源内容不符的情况。幻觉可以分为两类,内在和外在。内在幻觉是与源材料相矛盾的幻觉,而外在幻觉是生成的文本包含源材料中未包含的额外信息。
在多模态智能体系统的背景下,VLMs 也被证明会出现幻觉。完全依赖预训练的 LLMs 或 VLMs 并使用有限的环境特定微调的 AI 智能体可能特别容易受到幻觉的影响。
2.2.2 偏见和包容性
基于 LLMs 或 LMMs 的 AI 智能体由于设计和训练过程中固有的几个因素而存在偏见。在设计这些 AI 智能体时,我们必须注意包容性,并意识到所有最终用户和利益相关者的需求。
减轻偏见的努力包括:多样化和包容性训练数据、偏见检测和纠正、道德指导方针和政策、多样化代表等。
2.2.3 数据隐私和使用
AI 智能体的一个关键伦理考虑涉及理解这些系统如何处理、存储和可能检索用户数据。我们讨论以下关键方面:
- 数据收集、使用和目的。
- 存储和安全。
- 数据删除和保留。
- 数据可携带性和隐私政策。
- 匿名化。
2.2.4 可解释性和解释性
智能体通常使用强化学习(RL)或模仿学习(IL)中的连续反馈循环进行训练。然而,这种方法在获得不熟悉环境中的初始奖励方面面临挑战。
传统的 IL 有一个智能体模仿专家演示者的行为来学习策略。然而,直接学习专家策略并不总是最佳方法,因为智能体可能无法很好地泛化到未见情况。
2.2.5 推理增强
AI 智能体的推理能力在于其根据训练和输入数据进行解释、预测和响应的能力。AI 智能体中的推理增强指的是通过额外的工具、技术或数据来提高 AI 的自然推理能力。
重要来源包括:数据丰富、算法增强、人类参与(HITL)、实时反馈整合、跨领域知识转移、针对特定用例的定制、伦理和偏见考虑、持续学习和适应。
2.2.6 监管
最近,智能体 AI 取得了显著进展,其在具身系统中的整合为通过更沉浸式、动态和引人入胜的体验与智能体交互开辟了新的可能性。
在使用 LLM/VLM 进行人机协作系统时,重要的是要注意这些系统作为黑盒运行,生成不可预测的输出。解决这一挑战的方法之一是通过提示工程限制 LLM/VLM 的关注点。
2.3 智能体 AI 用于紧急能力
尽管交互式智能体 AI 系统的采用日益增长,但大多数提出的方法在未见环境或场景中的泛化性能方面仍面临挑战。当前的建模实践要求开发人员为每个领域准备大型数据集以微调/预训练模型。
为了解决这个问题,我们构建了利用通用基础模型的知识记忆的交互式智能体,用于新场景。我们发现了一个紧急机制——我们称之为知识推理交互的混合现实——它促进了与人类的协作,以解决复杂现实世界环境中的具有挑战性的任务。
3 智能体 AI 范式
在本节中,我们讨论了智能体 AI 训练的新范式和框架。我们希望通过我们提出的框架实现几个目标:
- 利用现有的预训练模型和预训练策略,有效地引导我们的智能体,使其对重要模态有有效的理解。
- 支持充分的长期任务规划能力。
- 整合一个框架,允许编码和检索学习到的知识。
- 允许环境反馈被用来有效地训练智能体采取哪些行动。
3.1 LLMs 和 VLMs
我们可以使用 LLM 或 VLM 模型来引导智能体的组件。特别是,LLMs 已被证明在任务规划、包含重要的世界知识以及展示令人印象深刻的逻辑推理能力方面表现良好。
3.2 智能体变换器定义
与其使用冻结的 LLMs 和 VLMs 作为 AI 智能体,也可以使用单一的智能体变换器模型,该模型以视觉标记和语言标记作为输入。除了视觉和语言,我们增加了第三种一般类型的输入,我们称之为智能体标记。
3.3 智能体变换器创建
如上文所示,我们可以使用 LLM 和 VLM 引导的智能体,以及利用大型基础模型生成的数据来训练智能体变换器模型,学习执行特定目标。
4 智能体 AI 学习
4.1 策略和机制
交互式 AI 在不同领域的策略,扩展了调用大型基础模型的范式,通过训练的智能体积极寻求收集用户反馈、行动信息、有用的知识,用于生成和交互。
4.1.1 强化学习(RL)
有着丰富的利用强化学习(RL)训练交互式智能体展现智能行为的历史。RL 是一种基于奖励(或惩罚)学习状态和动作之间最佳关系的方法。
4.1.2 模仿学习(IL)
虽然 RL 旨在通过探索性行为和通过与环境的交互最大化奖励来训练策略,但模仿学习(IL)寻求利用专家数据来模仿经验丰富的智能体或专家的行动。
4.1.3 传统 RGB
利用图像输入学习智能体行为多年来一直是一个感兴趣的领域。使用 RGB 输入的固有挑战是维度的诅咒。为了解决这个问题,研究人员要么使用更多的数据,要么在模型设计中引入归纳偏差以提高样本效率。
4.1.4 上下文学习
上下文学习被证明是一种有效的方法,可以在 NLP 中解决任务,这得益于像 GPT-3 这样的大型语言模型的出现。
4.1.5 智能体系统中的优化
智能体系统的优化可以分为空间和时间方面。空间优化考虑智能体如何在物理空间内操作以执行任务。时间优化侧重于智能体如何随着时间执行任务。
4.2 智能体系统(零样本和少样本水平)
4.2.1 智能体模块
我们对智能体范式的探索包括使用 LLMs 或 VLMs 开发交互式多模态智能体的智能体 AI'模块'。
4.2.2 智能体基础设施
基于智能体的 AI 是在娱乐、研究和工业领域内迅速增长的社区。大型基础模型的发展显著提高了智能体 AI 系统的性能。
4.3 智能体基础模型(预训练和微调水平)
使用预训练的基础模型提供了显著的优势,因为它们在各种用例中具有广泛的适用性。
5 智能体 AI 分类
5.1 通用智能体领域
基于计算机的行动和通用智能体(GAs)对许多任务都很有用。为了让 GA 真正对用户有价值,它必须是自然的交互对象,并且能够泛化到广泛的上下文和模态。
5.2 具身智能体
我们的生物大脑存在于身体中,我们的身体在不断变化的世界中移动。具身人工智能的目标是创建智能体,如机器人,它们学习创造性地解决需要与环境交互的具有挑战性的任务。
5.2.1 行动智能体
行动智能体指的是需要在模拟物理环境或现实世界中执行物理动作的智能体。
5.2.2 交互智能体
交互智能体简单地指可以与世界交互的智能体,这是比行动智能体更广泛的智能体类别。
5.3 模拟和环境智能体
通过与环境的交互进行试错体验,是 AI 智能体学习如何在环境中行动的有效方法。代表性的方法是 RL,它需要大量的失败经验来训练智能体。
5.4 生成智能体
在大型生成性 AI 模型领域的最新进展有潜力大大减少当前交互内容的高成本和时间。
5.4.1 AR/VR/混合现实智能体
AR/VR/混合现实(统称为 XR)设置目前需要熟练的艺术家和动画师来创建角色、环境和对象,用于模拟虚拟世界中的交互。
5.5 知识和逻辑推理智能体
推理和应用知识的能力是人类认知的一个定义特征,特别是在逻辑演绎和理解心理理论等复杂任务中尤为明显。
5.5.1 知识智能体
知识智能体以两种方式推理其获得的知识系统:隐式和显式。
5.5.2 逻辑智能体
通常,逻辑智能体是一个系统组件,旨在应用逻辑推理来处理数据或解决特定于逻辑推理或逻辑任务的任务。
5.5.3 情感推理智能体
情感理解和共情是许多人类 - 机器交互中智能体的重要技能。
5.5.4 神经符号智能体
神经符号智能体在神经元和符号的混合系统上运作。
5.6 LLMs 和 VLMs 智能体
一些工作利用 LLMs 作为智能体执行任务规划,并利用 LLMs 的大规模互联网规模领域知识和零样本规划能力执行代理任务。
6 智能体 AI 应用任务
6.1 游戏智能体
游戏为测试 LLMs 和 VLMs 的代理行为提供了独特的沙盒,推动了它们协作和决策能力的边界。
6.1.1 NPC 行为
在现代游戏系统中,非玩家角色(NPC)的行为主要由开发人员制定的预定义脚本决定。
6.1.2 人类-NPC 交互
人类玩家和 NPC 之间的交互是游戏体验的关键方面。
6.1.3 基于智能体的游戏分析
游戏是日常生活的一部分,估计有世界人口的一半参与其中。
6.1.4 游戏场景合成
场景合成是创建和增强沉浸式游戏环境的重要组成部分。
6.1.5 实验和结果
零样本/少样本学习与 LLM 或 LVM。我们使用 GPT-4V 进行高级描述和动作预测。
6.2 机器人技术
机器人是代表性的智能体,需要与其环境有效交互。
6.2.1 LLM/VLM 智能体机器人
最近的研究已经展示了 LLM/VLM 在涉及与环境和人类交互的机器人智能体方面的潜力。
6.2.2 实验和结果
越来越多的证据表明,最近的 VLMs 和 LLMs 在符号任务规划方面具有有希望的能力。
6.3 医疗保健
在医疗保健领域,LLMs 和 VLMs 可以作为诊断智能体、患者护理助手甚至治疗助手,但它们带来了独特的挑战和责任。
6.3.1 当前医疗保健能力
图像理解。我们在图 19 中展示了现代多模态智能体如 GPT-4V 在医疗保健领域的当前能力和局限性。
视频理解。我们从两个方面研究了 VLM 智能体在医疗视频理解中的性能。
6.4 多模态智能体
视觉和语言理解的整合对于发展复杂的多模态 AI 智能体至关重要。
6.4.1 图像 - 语言理解与生成
图像 - 语言理解是一项涉及用语言解释给定图像中的视觉内容并生成相关语言描述的任务。
6.4.2 视频和语言理解与生成
视频 - 语言生成。视频字幕或视频讲故事是为视频帧流生成一系列连贯句子的任务。
6.4.3 实验和结果
知识密集型模型。这是一个结合了人类注释所需知识的密集型神经知识任务。
6.5 视频 - 语言实验
为了理解将预训练的图像-LLMs 转换为视频理解的实用性,我们对 InstructBLIP 进行了时间扩展和微调,用于视频字幕。
6.6 用于 NLP 的智能体
6.6.1 LLM 智能体
识别任务指令并采取行动是交互式 AI 和自然语言处理数十年来的基本挑战。
6.6.2 通用 LLM 智能体
识别和理解智能体内容和自然语言是交互式 AI 和自然语言处理数十年来的基本挑战。
6.6.3 遵循指令的 LLM 智能体
此外,创建能够有效遵循人类指令的 LLM 智能体已成为一个重要的研究领域。
6.6.4 实验和结果
尽管对话和自我反馈系统的采用日益增加,但这些形式的 AI 在从其隐含知识中生成事实上正确的响应方面仍然表现不佳。
7 跨模态、跨领域和跨现实的智能体
7.1 跨模态理解的智能体
多模态理解对于创建通用智能体是一个重大挑战,因为缺乏包含视觉、语言和智能体行为的大规模数据集。
7.2 跨领域理解的智能体
创建通用智能体的一个关键挑战是不同领域之间独特的视觉外观和不同的动作空间。
7.3 跨模态和跨现实的交互智能体
开发能够成功理解和跨不同现实执行任务的 AI 智能体是一个持续的挑战。
7.4 模拟到现实转移
使模型能够在模拟中训练并部署在现实世界中的技术。具身智能体,特别是基于 RL 策略的智能体,通常在模拟环境中训练。
8 智能体 AI 的持续自我改进
目前,基于基础模型的 AI 智能体具有从多个不同数据源学习的能力,这为训练提供了更灵活的数据来源。
8.1 基于人类的交互数据
使用基于人类的交互数据的核心思想是利用大量的智能体 - 人类交互来训练和改进智能体的未来迭代。
8.2 基础模型生成的数据
随着学术界和工业界产生的强大的基础模型制品的出现,已经开发了各种方法,使用各种提示和数据配对技术从这些制品中提取和生成有意义的训练数据。
9 智能体数据集和排行榜
为了加速这一领域的研究,我们提出了两个基准,分别用于多智能体游戏和智能视觉语言任务。
9.1 "CuisineWorld"多智能体游戏数据集
CuisineWorld 是一个类似于 Overcooked! 的基于文本的游戏,为 AI 驱动的智能体提供了一个合作和协同游戏的平台。
9.1.1 基准
对于我们的比赛,我们将发布一个基准,即 CuisineWorld 基准,其中包括一个文本界面。
9.1.2 任务
我们将提供基准,以评估和排名提交的'MindAgent'算法。
9.1.3 指标和评判
多智能体协作效率的质量由新的'cos'自动度量标准确定。
9.1.4 评估
自动化评估。我们计划在发布日期发布排行榜。
9.2 音视频 - 语言预训练数据集
我们介绍了 VideoAnalytica:一项新的基准测试,用于分析视频演示理解。
VideoAnalytica 专注于利用视频演示作为辅助,以更好地理解嵌入在长篇教学视频中的复杂、高级推理。
具体来说,VideoAnalytica 涉及两个主要任务:
- 视频文本检索:这项任务涉及从教学视频中准确检索相关文本。
- 视频辅助信息性问答:这项任务要求模型基于从视频中提取的信息回答问题。
为了促进音频 - 视频 - 语言代理分析视频理解的发展,我们为 VideoAnalytica 的两个任务引入了基准排行榜。


