记忆对于长时程和历史依赖型机器人操作至关重要。此类任务通常涉及重复动作的计数或操作暂时被遮挡的物体。近年来,视觉 - 语言 - 动作(VLA)模型开始融入记忆机制;然而,它们的评估仍然局限于狭窄且非标准化的场景。这限制了对其的系统性理解、比较和进展评估。为了应对这些挑战,推出 RoboMME:一个大规模的标准化基准测试平台,用于评估和改进长时程、历史依赖型场景下的 VLA 模型。基准测试平台包含 16 个操作任务,这些任务根据设计的分类体系构建,用于评估时间记忆、空间记忆、物体记忆和程序记忆。进一步开发一套基于 π0.5 主干网络的 14 个记忆增强型 VLA 变型,以系统地探索多种整合策略下的不同记忆表征。
开放世界机器人操作通常需要对历史进行推理并回忆过去交互的信息。例如,家用机器人可能被要求将书放回书架上的原位、擦拭桌子达到指定次数,或者在观察人类演示后折叠衣物。
在这种情况下,仅仅依靠即时感知来预测动作是不够的。有效的执行取决于机器人能否跨时间保留和重用相关信息,我们将其统称为记忆。以往的研究通过三种主要表示方法将记忆融入机器人操作策略:(1)符号记忆,它使用不可微的抽象概念概括历史,例如点跟踪轨迹和基于语言的子目标;(2)感知记忆,它将历史表示为一组视觉特征,包括多帧视觉标记和记忆库;以及(3)循环记忆,它通过循环模型将上下文特征压缩成固定大小的潜状态。尽管这些方法都证明了记忆的重要性,但它们依赖于不同的策略框架和不一致的评估协议,因此尚不清楚哪些记忆设计能够推广到不同的任务。
基于记忆的机器人操作模型回顾。现有方法可以根据其记忆表示方式进行大致分类。(1) 符号记忆依赖于从交互历史或外部模块导出的不可微抽象。例如,HistRISE 将以对象为中心的 3D 点作为符号状态进行跟踪,UniVLA 通过将过去的动作添加到输入提示中来整合时间上下文。更新的方法,例如 MemER 和 Gemini-Robotics-1.5,使用大型视觉语言模型生成基于语言的子目标,将长期记忆推理卸载到智能体管道,但引入代价高昂的模块化推理,并且无法进行端到端优化。(2) 感知记忆将历史表示为可微的视觉或多模态特征。例如,ContextVLA 将过去的视觉 tokens 直接作为原始上下文 tokens 附加到 Transformer 输入中。相比之下,记忆库方法将视觉特征与辅助信号(例如任务指令或动作热图)一起编码,并将这些多模态嵌入缓存起来以供后续检索。(3) 循环记忆通过迭代更新将历史压缩成固定大小的潜状态。早期工作,例如 BC-RNN,使用循环神经网络对时间依赖性进行建模。更新的方法,包括 MITL 和 RoboMamba,采用 Mamba 风格的状态空间模型来更好地捕获长时域依赖性。尽管这些方法都展现了记忆的重要性,但它们在架构和评估方面差异很大,使得系统比较变得困难。
此外,缺乏能够捕捉多样化且具有挑战性记忆需求的基准测试也限制了研究进展。MemoryBench 是第一个明确评估空间记忆的基准测试,但它仅包含三个接近已解决的任务。MIKASA-Robo 引入几个与历史相关的任务,但它们仍然是短时域任务,并且缺乏足够的高质量示例来进行有效的视觉 - 语言 - 动作 (VLA) 模仿学习。因此,现有的基准测试既不能捕捉真实的记忆需求,也不能提供一个标准化的测试平台来系统地评估记忆增强型操作策略。
为了解决这些局限性,提出 RoboMME:一个统一的大规模机器人仿真基准测试,专为记忆增强型操作评估而设计。RoboMME 从人类记忆的认知理论中汲取灵感,将记忆分为四个认知维度:(1)用于事件累积和排序的时间记忆;(2)空间记忆用于在遮挡和场景变化下追踪物体位置;(3)物体记忆用于解析物体在不同时间点的指称身份;(4)程序记忆用于复现先前演示过的运动模式。如图所示,这些记忆类型分别定义四个对应的任务套件:计数、持久性、指称和模仿,每个套件包含四个精心设计的任务。RoboMME 总共包含 16 个不同的长时域任务,每个任务有 1600 个演示,产生 77 万个高质量时间步,可用于全面评估记忆增强策略。
基于 RoboMME,开发一系列基于 π0.5 骨干网络的 14 个记忆增强型 VLA 模型,以系统地研究不同的记忆表示如何影响操作性能。符号记忆以语言子目标的形式实现,并与任务指令连接,在不修改骨干网络的情况下,以自然语言显式地编码历史信息。可区分的神经表征,包括感知记忆和循环记忆,通过三种机制整合:(1)记忆作为上下文,将记忆嵌入附加到输入以进行联合处理;(2)记忆作为调节器,通过自适应层归一化来调节动作专家,从而调节中间激活;(3)记忆作为专家,添加一个专门的记忆专家,通过分块因果注意力与动作专家交互。
基于认知动机的任务设计
为了系统地评估与历史相关的长时程操作,任务设计基于已建立的人类记忆认知模型。经典理论将长期记忆分为程序性记忆和陈述性记忆,陈述性记忆又进一步分为情景记忆和语义记忆。具体而言,情景记忆支持对事件和经验的回忆,包括时间顺序、空间背景和物体身份,而程序性记忆则编码通过练习获得的运动技能。两者都对记忆增强型操作至关重要,并与之相关。
这四种记忆类型分别对应于认知维度:时间(时间)、地点(空间)、事物(物体)和过程(程序)。以此维度 RoboMME 构成 4 个任务套件。具体而言,'计数'测试套件旨在评估时间记忆,要求智能体重复执行指定次数的动作,包括拾取和放置、线性摆动以及时间紧迫的任务。'持久性'测试套件侧重于空间记忆,评估智能体在预录制的视频或同时操作过程中对物体位置的跟踪能力。'参考'测试套件通过在视觉、动作和语言等参考线索下持续识别物体来评估物体记忆。'模仿'测试套件旨在评估程序性记忆,要求智能体复现演示的运动模式,例如推、插以及连续的线性或圆形运动。这些测试套件共同构成一个互补的评估体系,用于评估智能体在不同记忆需求下的记忆增强操作能力。下表总结各项任务:
基准测试构建
基于 ManiSkill 模拟器,使用桌面环境和 7 自由度 Franka Panda 机械臂进行训练。训练过程通过重放预定义的关键帧路径点生成,并记录为密集轨迹。
观测与动作。在每个时间步,机器人接收来自前置和腕部摄像头(均为 256 × 256)的多视角 RGB 观测数据,以及本体感受状态,包括关节位置、末端执行器 (EEF) 位姿和夹爪状态。动作空间定义在绝对关节空间或绝对 EEF 空间中:关节空间动作为 8 维(7 个关节 + 夹爪),EEF 空间动作为 7 维(3D 位置、欧拉角和夹爪)。模仿任务套件中的任务以及以'视频'为前缀的任务在初始阶段使用基于视频的观测数据(一系列具有配对本体感觉的历史帧),而所有其他任务则使用基于图像的观测数据(单个当前帧具有配对本体感觉)。在执行过程中,所有任务在每个时间步都提供基于图像的观测数据。
数据整理。为了增强行为多样性,特别是对模仿学习至关重要的失败恢复能力,在数据生成过程中注入可控扰动,方法是向关键帧路径点添加 5% 的噪声,然后恢复到正常轨迹。任务进一步根据场景杂乱程度、视野长度和环境动态分为简单、中等和困难三个级别。为了确保数据质量,舍弃内置规划器失败的回合,仅保留成功的 episodes 用于训练和环境种子用于评估。最终数据集包含 16 个任务,每个任务 100 个 episodes,共计 1600 个演示和 77 万个时间步。单个 episode 的步数从几百步到一千多步不等,反映了长远规划和历史依赖的行为。
基准测试对比。下表提供与先前基准测试的详细对比。大多数现有基准测试旨在强调长远规划和任务复杂性。虽然这些任务可能隐含地需要时间推理,但它们并未明确地强制执行其他类型的记忆,因为通常可以仅根据即时观察做出决策。相比之下,RoboMME 引入更高的环境复杂性和视频条件任务,并且是第一个系统地涵盖四种类型记忆(时间记忆、空间记忆、物体记忆和程序记忆)的基准测试。这种设计能够对记忆增强型机器人策略进行更全面的评估。
实验设置
为了进行系统比较,评估 MME-VLA 套件中的 14 种 VLA 策略以及 4 种先前的方法。
MME-VLA 套件。对于符号记忆,微调两个 π0.5 变型:SimpleSG 和 GroundSG,它们分别基于简单或落地的语言子目标。子目标由 Gemini-2.5-Pro (Gemini)、Qwen3-VL-4B 模型 (QwenVL) 或模拟器真值 (Oracle) 生成。QwenVL 基于数据集中的子目标标注进行微调,以根据当前图像和累积的子目标历史记录预测下一个子目标,而 Gemini 仅依赖于提示工程,没有针对特定任务的微调。对于感知记忆,用 token 丢弃(TokenDrop)或帧采样(FrameSamp),每种方法都结合三种整合机制:记忆即上下文(Context)、记忆即调节器(Modul)和记忆即专家(Expert),从而产生六个额外的 π0.5 变型。对于循环记忆,采用 TTT 或 RMT,并结合相同的整合策略,同样产生了六个额外的策略。除非另有说明,将每个变型表示为:'方法 + 整合/VLM',例如 FrameSamp+Modul 或 SimpleSG+QwenVL。
评估协议。为了公平地比较 MME-VLA 模型,将记忆预算固定为 512 个 tokens,与当前观测中的图像 tokens 数量相匹配,例如,RMT 中的可学习 tokens 和 TokenDrop 中的采样 tokens 都限制在此范围内。评估使用每个任务 50 个 episodes(总共 800 个 episodes),环境种子与训练环境种子不同。采用多任务设置,使用单个模型训练所有任务,每个 episode 最多训练 1300 步。结果取自最后三个检查点和三个随机种子(共运行九次)的平均值。
先前方法。与以下四种方法进行比较:(1)π0.5,仅基于当前观测值,不包含任何记忆;(2)π0.5 w/ past actions,将过去的动作与语言 tokens 连接起来,形成显式符号记忆,其灵感来源于 UniVLA;(3)SAM2Act+,采用 SAM2 作为骨干网络,通过记忆库提供感知记忆,并预测由外部运动规划器执行的离散关键帧动作;(4)MemER,使用 VLM 从累积的关键帧图像中推断符号子目标,并使用 VLA 执行这些子目标。与仅基于当前图像和子目标历史的符号化变型不同,MemER 在执行过程中从最近的 N 幅图像中选择关键帧,并使用存储所有先前选择的关键帧图像的缓冲区来预测符号子目标。因此,它可以被视为感知记忆和符号记忆的混合体。在复现 MemER 时,遵循其原始提示,在已标注的子目标和关键帧上微调一个额外的 Qwen3-VL-4B 模型,并使用 GroundSG 策略执行预测的子目标。所有先前的方法均进行三次运行评估。
真实机器人实验
如图所示展示真实机器人操作的平台设置。实验采用一台 7 自由度 Franka Emika Panda 机器人,该机器人配备有 UMI 鳍状手指,安装在 Franka 默认的夹爪上。机器人在桌面环境下运行,并配备三台 RGB-D 摄像头,配置遵循 DROID:两台 Intel RealSense D435 摄像头分别安装在左右肩部,一台 Intel RealSense D405 摄像头安装在腕部。
结果如图所示,感知记忆(FrameSamp + Modul)在以运动为中心、时间敏感且时间跨度长的任务中最为有效,因为在这些任务中,获取扩展的视觉历史和底层运动信息至关重要。相比之下,符号记忆通过提供清晰的子目标指导,在时间跨度短且事件显著的任务中表现优异。MemER 在动态场景切换任务中表现最佳,这可能是因为它保留了关键帧图像,从而在在线执行过程中保留了必要的细节。总的来说,这些结果表明不同的记忆设计具有互补优势,这意味着将它们协同组合可以进一步提高性能。


