记忆对于长时程和历史依赖型机器人操作至关重要。此类任务通常涉及重复动作的计数或操作暂时被遮挡的物体。近年来,视觉 - 语言 - 动作(VLA)模型开始融入记忆机制;然而,它们的评估仍然局限于狭窄且非标准化的场景。这限制了对其的系统性理解、比较和进展评估。为了应对这些挑战,推出 RoboMME:一个大规模的标准化基准测试平台,用于评估和改进长时程、历史依赖型场景下的 VLA 模型。基准测试平台包含 16 个操作任务,这些任务根据设计的分类体系构建,用于评估时间记忆、空间记忆、物体记忆和程序记忆。进一步开发一套基于 π0.5 主干网络的 14 个记忆增强型 VLA 变型,以系统地探索多种整合策略下的不同记忆表征。
开放世界机器人操作通常需要对历史进行推理并回忆过去交互的信息。例如,家用机器人可能被要求将书放回书架上的原位、擦拭桌子达到指定次数,或者在观察人类演示后折叠衣物。
在这种情况下,仅仅依靠即时感知来预测动作是不够的。有效的执行取决于机器人能否跨时间保留和重用相关信息,我们将其统称为记忆。以往的研究通过三种主要表示方法将记忆融入机器人操作策略:(1)符号记忆,它使用不可微的抽象概念概括历史,例如点跟踪轨迹和基于语言的子目标;(2)感知记忆,它将历史表示为一组视觉特征,包括多帧视觉标记和记忆库;以及(3)循环记忆,它通过循环模型将上下文特征压缩成固定大小的潜状态。尽管这些方法都证明了记忆的重要性,但它们依赖于不同的策略框架和不一致的评估协议,因此尚不清楚哪些记忆设计能够推广到不同的任务。
基于记忆的机器人操作模型回顾。现有方法可以根据其记忆表示方式进行大致分类。(1) 符号记忆依赖于从交互历史或外部模块导出的不可微抽象。例如,HistRISE 将以对象为中心的 3D 点作为符号状态进行跟踪,UniVLA 通过将过去的动作添加到输入提示中来整合时间上下文。更新的方法,例如 MemER 和 Gemini-Robotics-1.5,使用大型视觉语言模型生成基于语言的子目标,将长期记忆推理卸载到智能体管道,但引入代价高昂的模块化推理,并且无法进行端到端优化。(2) 感知记忆将历史表示为可微的视觉或多模态特征。例如,ContextVLA 将过去的视觉 tokens 直接作为原始上下文 tokens 附加到 Transformer 输入中。相比之下,记忆库方法将视觉特征与辅助信号(例如任务指令或动作热图)一起编码,并将这些多模态嵌入缓存起来以供后续检索。(3) 循环记忆通过迭代更新将历史压缩成固定大小的潜状态。早期工作,例如 BC-RNN,使用循环神经网络对时间依赖性进行建模。更新的方法,包括 MITL 和 RoboMamba,采用 Mamba 风格的状态空间模型来更好地捕获长时域依赖性。尽管这些方法都展现了记忆的重要性,但它们在架构和评估方面差异很大,使得系统比较变得困难。
此外,缺乏能够捕捉多样化且具有挑战性记忆需求的基准测试也限制了研究进展。MemoryBench 是第一个明确评估空间记忆的基准测试,但它仅包含三个接近已解决的任务。MIKASA-Robo 引入几个与历史相关的任务,但它们仍然是短时域任务,并且缺乏足够的高质量示例来进行有效的视觉 - 语言 - 动作 (VLA) 模仿学习。因此,现有的基准测试既不能捕捉真实的记忆需求,也不能提供一个标准化的测试平台来系统地评估记忆增强型操作策略。
为了解决这些局限性,提出 RoboMME:一个统一的大规模机器人仿真基准测试,专为记忆增强型操作评估而设计。RoboMME 从人类记忆的认知理论中汲取灵感,将记忆分为四个认知维度:(1)用于事件累积和排序的时间记忆;(2)空间记忆用于在遮挡和场景变化下追踪物体位置;(3)物体记忆用于解析物体在不同时间点的指称身份;(4)程序记忆用于复现先前演示过的运动模式。如图所示,这些记忆类型分别定义四个对应的任务套件:计数、持久性、指称和模仿,每个套件包含四个精心设计的任务。RoboMME 总共包含 16 个不同的长时域任务,每个任务有 1600 个演示,产生 77 万个高质量时间步,可用于全面评估记忆增强策略。
基于 RoboMME,开发一系列基于 π0.5 骨干网络的 14 个记忆增强型 VLA 模型,以系统地研究不同的记忆表示如何影响操作性能。符号记忆以语言子目标的形式实现,并与任务指令连接,在不修改骨干网络的情况下,以自然语言显式地编码历史信息。可区分的神经表征,包括感知记忆和循环记忆,通过三种机制整合:(1)记忆作为上下文,将记忆嵌入附加到输入以进行联合处理;(2)记忆作为调节器,通过自适应层归一化来调节动作专家,从而调节中间激活;(3)记忆作为专家,添加一个专门的记忆专家,通过分块因果注意力与动作专家交互。
基于认知动机的任务设计
为了系统地评估与历史相关的长时程操作,任务设计基于已建立的人类记忆认知模型。经典理论将长期记忆分为程序性记忆和陈述性记忆,陈述性记忆又进一步分为情景记忆和语义记忆。具体而言,情景记忆支持对事件和经验的回忆,包括时间顺序、空间背景和物体身份,而程序性记忆则编码通过练习获得的运动技能。两者都对记忆增强型操作至关重要,并与之相关。
这四种记忆类型分别对应于认知维度:时间(时间)、地点(空间)、事物(物体)和过程(程序)。以此维度 RoboMME 构成 4 个任务套件。具体而言,'计数'测试套件旨在评估时间记忆,要求智能体重复执行指定次数的动作,包括拾取和放置、线性摆动以及时间紧迫的任务。'持久性'测试套件侧重于空间记忆,评估智能体在预录制的视频或同时操作过程中对物体位置的跟踪能力。'参考'测试套件通过在视觉、动作和语言等参考线索下持续识别物体来评估物体记忆。'模仿'测试套件旨在评估程序性记忆,要求智能体复现演示的运动模式,例如推、插以及连续的线性或圆形运动。这些测试套件共同构成一个互补的评估体系,用于评估智能体在不同记忆需求下的记忆增强操作能力。下表总结各项任务:


