3. Agent AI 范式
本节探讨用于训练 Agent AI 的全新范式与框架,旨在实现以下核心目标:
- 充分利用现有预训练模型和策略,为智能体提供坚实基础,使其有效理解文本、视觉等关键模态信息;
- 支持强大的长期任务规划能力;
- 构建记忆框架,使习得的知识能够被编码存储并在后续按需检索;
- 利用环境反馈有效训练智能体,使其学会选择合适的动作。
系统包含五大核心模块:环境与感知模块、智能体学习模块、记忆模块、智能体动作模块、认知模块。
3.1 大型语言模型(LLMs)与视觉语言模型(VLMs)
利用大型语言模型(LLM)或视觉语言模型(VLM)构建智能体的核心组件。大型语言模型在任务规划方面表现出色,蕴含丰富的世界知识,并具备逻辑推理能力。视觉语言模型(如 CLIP)提供了与语言对齐的通用视觉编码器,同时具备零样本视觉识别能力。目前最先进的开源多模态模型均依赖冻结的 CLIP 模型作为视觉编码器。
3.2 智能体 Transformer 定义
不同于将冻结的大型语言模型和视觉语言模型用于构建人工智能智能体,也可以采用单一的智能体 Transformer 模型,该模型接收视觉令牌和语言令牌作为输入。除视觉和语言外,新增了第三种通用输入类型,称为智能体令牌,专门用于处理智能体化行为。在机器人技术或游戏领域,智能体令牌可表示控制器的输入动作空间;在训练智能体使用特定工具时也可使用。
与使用大型专有大型语言模型相比,使用智能体 Transformer 具有以下优势:
- 模型可轻松定制,以适应难以用自然语言描述的特定智能体化任务;
- 通过获取智能体令牌的概率分布,更容易理解模型为何采取或不采取特定动作;
- 在医疗和法律等特定领域,存在严格的数据隐私要求,智能体 Transformer 更易满足此类需求;
- 相对小型的智能体 Transformer 在成本上可能远低于大型专有语言模型。
3.3 智能体 Transformer 的构建
采用基于大型语言模型和视觉语言模型构建的智能体新范式,同时利用大型基础模型生成的数据训练智能体 Transformer 模型,使其能够学会执行特定目标。在此过程中,智能体模型会被训练为针对特定任务和领域的专用模型。以下是该过程的简化概述,主要分为两个步骤:
3.3.1 定义领域内目标
为了训练智能体 Transformer,需要明确智能体在每个特定环境背景下的目标和动作空间。这包括确定智能体需要执行的具体任务或动作,并为每个任务或动作分配唯一的智能体令牌。此外,任何可用于识别任务成功完成的自动规则或流程,都能显著增加可用于训练的数据量。
3.3.2 持续改进
持续监测模型性能并收集反馈是该过程的关键步骤。反馈应用于模型的进一步微调与更新。同时,必须确保模型不会延续偏见或产生不道德的输出结果。一旦模型达到令人满意的性能,即可部署用于预期应用场景。但持续监测仍然至关重要,以确保模型始终按预期运行。
4 Agent AI 的学习
4.1 策略与机制
跨领域交互式人工智能的核心策略,是在调用大型基础模型的范式基础上进行延伸 —— 通过训练一个主动收集用户反馈、动作信息及生成与交互所需实用知识的智能体来实现。在某些场景下,无需对大型语言模型或视觉语言模型进行重新训练,而是通过在测试阶段为智能体提供优化后的上下文提示来提升其性能。
4.1.1 强化学习(RL)
利用强化学习训练具备智能行为的交互式智能体有着深厚的研究历史。强化学习是一种基于动作产生的奖励来学习状态与动作间最优关系的方法论。作为一种高度可扩展的框架,强化学习已被应用于包括机器人技术在内的众多领域,但它通常面临若干挑战,而大型语言模型和视觉语言模型已展现出缓解或克服其中部分困难的潜力:
- 奖励函数设计:策略学习的效率在很大程度上取决于奖励函数的设计。设计奖励函数不仅需要掌握强化学习算法知识,还需对任务本质有深刻理解。
- 数据收集与效率:由于强化学习具有探索性质,基于强化学习的策略学习需要大量数据。近期研究中,已有相关工作致力于增强数据生成以支持策略学习。
- 长序列步骤:随着动作序列长度的增加,强化学习的难度会显著上升。针对长而复杂的任务,一种典型方法是将其分解为一系列子目标,并应用预训练策略解决每个子目标。
大型语言模型非常适合任务与运动规划,近期研究常采用的方案是:利用大型语言模型执行高层任务规划,同时通过基于强化学习的策略处理底层控制。
4.1.2 模仿学习(IL)
强化学习的目标是基于探索行为和与环境交互最大化奖励来训练策略,而模仿学习则旨在利用专家数据来模仿经验丰富的智能体或人类专家的动作。例如,在机器人技术领域,基于模仿学习的主要框架之一是行为克隆。近期基于行为克隆的方法通常整合了大型语言模型/视觉语言模型技术,从而实现更先进的端到端模型。


