李飞飞最新论文:我们需要什么样的 AI Agent
引言
斯坦福大学李飞飞教授及其团队发布的论文《AI Agent: Multimodal Interaction Frontier Survey》(AI Agent:多模态交互前沿调查),全面呈现了 Agent AI 在多模态交互领域的研究全景。该报告不仅为后续研究和应用奠定了坚实基础,指明了发展方向,同时也凸显了应对伦理等问题的重要性与紧迫性。
动机与背景
当前 AI 研究出现分化趋势,需要回归整体论视角。随着大语言模型(LLMs)和视觉语言模型(VLMs)的飞速发展,创建新型 AI 代理成为可能。AI 正从被动模型向动态代理转变,这一转变带来了巨大的变革潜力,同时也引发了新的伦理挑战。大规模基础模型的推动使得通用智能机器的发展成为现实,具身 AI 利用大模型进行任务规划,交互式学习的 AI 代理则通过多种方式从用户互动中学习,不断进化。
研究目的
本报告旨在介绍多模态代理 AI,提供知识梳理、展示方法、评估性能、讨论伦理并展望趋势。通用代理具有极高的价值和应用潜力,是未来人工智能发展的重要方向。
一、代理 AI 集成
无限 AI 代理
AI 代理具备预测建模、决策制定等核心能力,但其表现往往受限于训练数据。"无限代理"的概念提出了一种新路径,即从通用基础模型学习和转移信息。例如 RoboGen 在机器人领域的应用,展示了如何利用通用知识解决特定任务,突破了传统数据依赖的限制。
基于大型基础模型的代理 AI
基础模型在确定代理行为方面起着关键作用。然而,这也伴随着幻觉、偏见等固有问题。当前的研究重点在于推理增强和监管措施,以确保代理行为的可靠性和安全性。
基于生成能力的智能代理 AI
现有方法在泛化能力上仍面临挑战。构建的交互式代理可以利用通用基础模型的知识记忆来适应新情境。研究发现了一些新兴机制,有助于提升代理在未知环境中的适应能力。
二、智能代理 AI 的范式
LLMs 与 VLMs 的结合
大语言模型(LLMs)和视觉语言模型(VLMs)是引导代理组件的核心。LLMs 在任务规划、逻辑推理等方面表现出色,而 VLMs 则提供了强大的视觉编码器和零样本识别能力,两者结合实现了更全面的感知与认知。
代理 Transformer 的定义与创建
代理 Transformer 是一种定制化架构,其输入包括视觉、语言和代理令牌。相比大型专有 LLMs,它具有更好的可解释性和定制优势。创建过程需利用新范式通过 LLM 和 VLM 启动代理,并在训练中定义明确目标以持续改进性能。
三、代理 AI 学习
策略和机制
代理学习涉及多种策略,包括强化学习、模仿学习等。这些策略面临着奖励设计困难、数据收集成本高、交互复杂等挑战。针对这些问题,业界已探索出相应的解决方法并应用于实际场景。
Agent Systems 与零样本/少样本级别
开发了相关的 AI 模块和基础设施,虽然性能有所提升,但仍存在成本高昂和交互复杂的问题。零样本和少样本学习旨在减少对新数据的依赖,提高系统的灵活性。
基础模型的代理化
预训练基础模型适用于多种场景,在导航、机器人操作等领域已有成功应用。通过微调技术,可以将通用模型转化为特定任务的代理,实现更高效的学习。
四、代理 AI 分类
通用代理领域
计算机化行动代理和通用代理正在开发新功能,多模态代理 AI 为研究和工业社区提供了重要的交流平台,促进了技术的共享与迭代。
具象代理
包括行动代理(如游戏 AI 和机器人)和交互代理(通过对话等与世界互动)。这类代理强调物理或虚拟环境中的实际操作能力。
仿真和环境代理
利用仿真器训练可以避免物理训练的风险和高成本。仿真器需具备多种功能和特性,以模拟真实世界的复杂性,确保训练出的模型能顺利迁移到现实。
生成型代理
大规模生成式 AI 模型降低了内容制作成本,在 VR 等领域有广泛应用潜力和目标,能够自动生成丰富的交互内容。
知识和逻辑推理代理
包括知识代理、逻辑代理、情感推理代理和神经符号代理等。它们各有特点,分别侧重于事实检索、逻辑推导、情感理解和符号推理,共同构成了智能代理的认知基础。


