多模态交互智能体全面解析：定义、架构、机制与应用

多模态交互智能体全面解析

多模态 AI 系统很可能会成为我们日常生活中无处不在的存在。使这些系统更具交互性的一种有希望的方法是将它们作为物理和虚拟环境中的智能体。目前，系统利用现有的基础模型作为创建具身智能体的基本构建块。将智能体嵌入这些环境中，有助于模型处理和解释视觉和上下文数据，这对于创建更复杂和上下文感知的 AI 系统至关重要。

1.1 动机

历史上，AI 系统在 1956 年达特茅斯会议上被定义为能够从环境中收集信息并以有用的方式与之交互的人工生命形式。受到这个定义的启发，Minsky 的 MIT 团队在 1970 年构建了一个名为'Copy Demo'的机器人系统，该系统观察'积木世界'场景并成功重建了观察到的多面体积木结构。该系统包括观察、规划和操纵模块，揭示了这些子问题每个都非常具有挑战性，需要进一步的研究。

为了超越现状，有必要回归到受亚里士多德整体论启发的 AI 基础。幸运的是，最近在大型语言模型（LLMs）和视觉语言模型（VLMs）方面的革命使得创建符合整体理念的新型 AI 智能体成为可能。抓住这个机会，本文探讨了集成语言熟练度、视觉认知、上下文记忆、直观推理和适应性的模型。

随着强大的预训练 LLMs 和 VLMs 的出现，自然语言处理和计算机视觉领域迎来了复兴。LLMs 现在展示了令人印象深刻的解读现实世界语言数据细微差别的能力。最近，研究人员已经表明，LLMs 可以扩展为在各种环境中作为智能体行动，执行复杂的动作和任务。

在这些初步努力的基础上，AI 社区正处于一个重要的范式转变的边缘，从创建被动、结构化任务的 AI 模型转变为能够在多样化和复杂环境中承担动态、智能体角色的模型。

1.2 背景

大型基础模型

LLMs 和 VLMs 一直在推动开发通用智能机器（Bubeck 等人，2023；Mirchandani 等人，2023）的努力。尽管它们是使用大型文本语料库进行训练的，但它们卓越的问题解决能力并不局限于规范的语言处理领域。LLMs 可能解决以前被认为是专属于人类专家或特定领域算法处理的复杂任务，范围从数学推理到回答专业法律问题。

具身 AI

一些工作利用 LLMs 执行任务规划，特别是 LLMs 的全球规模领域知识和出现零样本具身能力，执行复杂的任务规划和推理。最近机器人研究也利用 LLMs 执行任务规划，通过将自然语言指令分解为子任务序列，无论是以自然语言形式还是 Python 代码形式，然后使用低级控制器执行这些子任务。

交互学习

设计用于交互学习的 AI 智能体使用机器学习技术和用户交互的组合。最初，AI 智能体在大型数据集上进行训练。训练涉及使用机器学习算法，可能包括深度学习模型如神经网络。这些训练模型使 AI 能够识别模式，进行预测，并基于其训练数据生成响应。AI 智能体也可以通过与用户的实时交互学习。这种交互学习可以以各种方式发生：

基于反馈的学习：AI 根据直接用户反馈调整其响应。
观察学习：AI 观察用户交互并隐式学习。

1.3 概述

多模态智能体 AI（MAA）是一类系统，它们基于对多模态感官输入的理解，在特定环境中生成有效动作。随着大型语言模型（LLMs）和视觉语言模型（VLMs）的出现，提出了许多 MAA 系统，涵盖从基础研究到应用的各个领域。

具体的学习成果包括：

MAA 概述：深入其原理和在当代应用中的角色。
方法论：通过在游戏、机器人技术和医疗保健中的案例研究，详细说明 LLMs 和 VLMs 如何增强 MAAs。
性能评估：使用相关数据集评估 MAAs 的指导。
伦理考虑：讨论部署智能体 AI 的社会影响和伦理领导者板块。

2 智能体 AI 整合

基于 LLMs 和 VLMs 的基础模型，其在具身 AI 领域的性能仍然有限，特别是在理解、生成、编辑和交互方面，对于未见环境或场景。因此，这些限制导致 AI 智能体的输出次优。

当前以智能体为中心的 AI 建模方法侧重于直接可访问和明确定义的数据，通常使用从大规模预训练中学到的领域和环境独立模式来预测每个环境的行动输出。

通过整合智能体 AI 框架，大型基础模型能够更深入地理解用户输入，形成复杂和适应性强的人机交互系统。智能体 AI 在基础模型方面的最新进展是解锁具身智能体通用智能的催化剂。

2.1 无限智能体

AI 智能体有能力根据其训练和输入数据进行解释、预测和响应。虽然这些能力先进且持续改进，但重要的是要认识到它们的局限性以及它们所训练的基础数据的影响。

我们在图 2 中展示了增强的交互智能体，用于多模态和跨现实不可知的整合，具有紧急机制。一个 AI 智能体需要为每个新任务收集广泛的训练数据，这在许多领域可能代价昂贵或不可能。在这项研究中，我们开发了一个无限智能体，它学习将记忆信息从一般基础模型转移到新领域或场景中，用于场景理解、生成和物理或虚拟世界中的交互编辑。

2.2 带有大型基础模型的智能体 AI

最近研究表明，大型基础模型在创建作为智能体在环境强加约束中行动的基准数据方面发挥着至关重要的作用。例如，使用基础模型进行机器人操纵和导航。

多模态交互智能体全面解析：定义、架构、机制与应用