RoboMME：机器人通用策略的记忆基准测试与理解

优质文章学习记录

06 Apr 2026 — 19 min read

26年3月来自密西根大学、斯坦福大学和Figure AI的论文“RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies”。

记忆对于长时程和历史依赖型机器人操作至关重要。此类任务通常涉及重复动作的计数或操作暂时被遮挡的物体。近年来，视觉-语言-动作（VLA）模型开始融入记忆机制；然而，它们的评估仍然局限于狭窄且非标准化的场景。这限制了对其的系统性理解、比较和进展评估。为了应对这些挑战，推出 RoboMME：一个大规模的标准化基准测试平台，用于评估和改进长时程、历史依赖型场景下的 VLA 模型。基准测试平台包含 16 个操作任务，这些任务根据设计的分类体系构建，用于评估时间记忆、空间记忆、物体记忆和程序记忆。进一步开发一套基于 π0.5 主干网络的 14 个记忆增强型 VLA 变型，以系统地探索多种整合策略下的不同记忆表征。

开放世界机器人操作通常需要对历史进行推理并回忆过去交互的信息。例如，家用机器人可能被要求将书放回书架上的原位、擦拭桌子达到指定次数，或者在观察人类演示后折叠衣物。

在这种情况下，仅仅依靠即时感知来预测动作是不够的。有效的执行取决于机器人能否跨时间保留和重用相关信息，我们将其统称为记忆。以往的研究通过三种主要表示方法将记忆融入机器人操作策略：（1）符号记忆，它使用不可微的抽象概念概括历史，例如点跟踪轨迹[9]和基于语言的子目标[36]；（2）感知记忆，它将历史表示为一组视觉特征，包括多帧视觉标记[22]和记忆库[17, 33]；以及（3）循环记忆，它通过循环模型将上下文特征压缩成固定大小的潜状态[28, 47]。尽管这些方法都证明了记忆的重要性，但它们依赖于不同的策略框架和不一致的评估协议，因此尚不清楚哪些记忆设计能够推广到不同的任务。

基于记忆的机器人操作模型回顾。现有方法可以根据其记忆表示方式进行大致分类。(1) 符号记忆依赖于从交互历史或外部模块导出的不可微抽象。例如，HistRISE [9] 将以对象为中心的 3D 点作为符号状态进行跟踪，UniVLA [5] 通过将过去的动作添加到输入提示中来整合时间上下文。更新的方法，例如 MemER [36] 和 Gemini-Robotics-1.5 [38]，使用大型视觉语言模型生成基于语言的子目标，将长期记忆推理卸载到智体管道，但引入代价高昂的模块化推理，并且无法进行端到端优化。(2) 感知记忆将历史表示为可微的视觉或多模态特征。例如，ContextVLA [22] 将过去的视觉tokens直接作为原始上下文tokens附加到 Transformer 输入中。相比之下，记忆库方法将视觉特征与辅助信号（例如任务指令 [24, 33] 或动作热图 [17]）一起编码，并将这些多模态嵌入缓存起来以供后续检索。(3) 循环记忆通过迭代更新将历史压缩成固定大小的潜状态。早期工作，例如 BC-RNN [29]，使用循环神经网络对时间依赖性进行建模。更新的方法，包括 MITL [47] 和 RoboMamba [28]，采用 Mamba 风格的状态空间模型 [18] 来更好地捕获长时域依赖性。尽管这些方法都展现了记忆的重要性，但它们在架构和评估方面差异很大，使得系统比较变得困难。

此外，缺乏能够捕捉多样化且具有挑战性记忆需求的基准测试也限制了研究进展。MemoryBench [17] 是第一个明确评估空间记忆的基准测试，但它仅包含三个接近已解决的任务。MIKASA-Robo [11] 引入几个与历史相关的任务，但它们仍然是短时域任务，并且缺乏足够的高质量示例来进行有效的视觉-语言-动作 (VLA) 模仿学习。因此，现有的基准测试既不能捕捉真实的记忆需求，也不能提供一个标准化的测试平台来系统地评估记忆增强型操作策略。

为了解决这些局限性，提出 RoboMME：一个统一的大规模机器人仿真基准测试，专为记忆增强型操作评估而设计。RoboMME 从人类记忆的认知理论 [1] 中汲取灵感，将记忆分为四个认知维度：（1）用于事件累积和排序的时间记忆；（2）空间记忆用于在遮挡和场景变化下追踪物体位置；（3）物体记忆用于解析物体在不同时间点的指称身份；（4）程序记忆用于复现先前演示过的运动模式。如图所示，这些记忆类型分别定义四个对应的任务套件：计数、持久性、指称和模仿，每个套件包含四个精心设计的任务。RoboMME 总共包含 16 个不同的长时域任务，每个任务有 1600 个演示，产生 77 万个高质量时间步，可用于全面评估记忆增强策略。

基于 RoboMME，开发一系列基于 π0.5 骨干网络 [4] 的 14 个记忆增强型 VLA 模型，以系统地研究不同的记忆表示如何影响操作性能。符号记忆以语言子目标的形式实现，并与任务指令连接，在不修改骨干网络的情况下，以自然语言显式地编码历史信息。可区分的神经表征，包括感知记忆和循环记忆，通过三种机制整合：（1）记忆作为上下文，将记忆嵌入附加到输入以进行联合处理；（2）记忆作为调节器，通过自适应层归一化[32]来调节动作专家，从而调节中间激活；（3）记忆作为专家，添加一个专门的记忆专家，通过分块因果注意力[3]与动作专家交互。

RoboMME 的目标是严格评估机器人操作中与历史相关的行为。所有任务均被有意设计为非马尔可夫任务，要求模型对当前步骤中不再可见的过去观察结果进行推理。记忆对于这些任务至关重要，因为相同的观察结果可能源于不同的历史，但却需要不同的操作。

基于认知动机的任务设计

为了系统地评估与历史相关的长时程操作，任务设计基于已建立的人类记忆认知模型。经典理论[1]将长期记忆分为程序性记忆和陈述性记忆，陈述性记忆又进一步分为情景记忆和语义记忆。具体而言，情景记忆支持对事件和经验的回忆，包括时间顺序、空间背景和物体身份[2, 8, 20]，而程序性记忆则编码通过练习获得的运动技能[35]。两者都对记忆增强型操作至关重要，并与之相关。

这四种记忆类型分别对应于认知维度：时间（时间）、地点（空间）、事物（物体）和过程（程序）。以此维度RoboMME构成4个任务套件。具体而言，“计数”测试套件旨在评估时间记忆，要求智体重复执行指定次数的动作，包括拾取和放置、线性摆动以及时间紧迫的任务。“持久性”测试套件侧重于空间记忆，评估智体在预录制的视频或同时操作过程中对物体位置的跟踪能力。“参考”测试套件通过在视觉、动作和语言等参考线索下持续识别物体来评估物体记忆。“模仿”测试套件旨在评估程序性记忆，要求智体复现演示的运动模式，例如推、插以及连续的线性或圆形运动。这些测试套件共同构成一个互补的评估体系，用于评估智体在不同记忆需求下的记忆增强操作能力。下表总结各项任务：

基准测试构建

基于 ManiSkill 模拟器 [31]，使用桌面环境和 7 自由度 Franka Panda 机械臂进行训练。训练过程通过重放预定义的关键帧路径点生成，并记录为密集轨迹。

观测与动作。在每个时间步，机器人接收来自前置和腕部摄像头（均为 256 × 256）的多视角 RGB 观测数据，以及本体感受状态，包括关节位置、末端执行器 (EEF) 位姿和夹爪状态。动作空间定义在绝对关节空间或绝对 EEF 空间中：关节空间动作为 8 维（7 个关节 + 夹爪），EEF 空间动作为 7 维（3D 位置、欧拉角和夹爪）。模仿任务套件中的任务以及以“视频”为前缀的任务在初始阶段使用基于视频的观测数据（一系列具有配对本体感觉的历史帧），而所有其他任务则使用基于图像的观测数据（单个当前帧具有配对本体感觉）。在执行过程中，所有任务在每个时间步都提供基于图像的观测数据。

数据整理。为了增强行为多样性，特别是对模仿学习至关重要的失败恢复能力[15]，在数据生成过程中注入可控扰动，方法是向关键帧路径点添加5%的噪声，然后恢复到正常轨迹。任务进一步根据场景杂乱程度、视野长度和环境动态分为简单、中等和困难三个级别。为了确保数据质量，舍弃内置规划器失败的回合，仅保留成功的episodes用于训练和环境种子用于评估。最终数据集包含16个任务，每个任务100个episodes，共计1600个演示和77万个时间步。单个episode的步数从几百步到一千多步不等，反映了长远规划和历史依赖的行为。

基准测试对比。下表提供与先前基准测试的详细对比。大多数现有基准测试 [19, 30, 45] 旨在强调长远规划和任务复杂性。虽然这些任务可能隐含地需要时间推理，但它们并未明确地强制执行其他类型的记忆，因为通常可以仅根据即时观察做出决策。相比之下，RoboMME 引入更高的环境复杂性和视频条件任务，并且是第一个系统地涵盖四种类型记忆（时间记忆、空间记忆、物体记忆和程序记忆）的基准测试。这种设计能够对记忆增强型机器人策略进行更全面的评估。

基于 RoboMME，构建一系列基于 𝜋0.5 骨干网络的记忆增强型视觉-语言-动作 (VLA) 模型，统称为 MME-VLA 模型套件。如图所示，在受控环境下系统地比较不同的记忆表征（符号、感知和循环）和整合机制（上下文、调节器和专家）。

记忆表征

研究三种表征：符号记忆、感知记忆和循环记忆。符号记忆使用离散的语言标记，而后两种表征则提供可区分的神经特征。

符号记忆被表示为可解释的语言子目标，因为正确的子目标意味着有效的历史概括。在每个步骤中，利用一个辅助的视觉-语言模型 (VLM)，该模型以当前图像和先前的子目标为条件生成下一个子目标。考虑简单的指令和包含图像坐标的附加变型（例如，“拿起绿色立方体”与“在 [63, 152] 处拿起绿色立方体”），附加图像坐标对空间推理尤为有益。值得注意的是，符号记忆方法通常需要额外的子目标标注来训练视觉-语言模型 (VLM)。

感知记忆被表示为从过去图像中选择并由 π0.5 视觉编码器提取的一系列视觉tokens。为了选择信息丰富的tokens，采用两种策略：(1) token丢弃 [44]，它基于 RGB 差异去除时间上冗余的图像块；(2) 均匀帧采样 [10]，它对序列进行均匀下采样，并将采样帧中的tokens连接起来。仅视觉token就足以编码历史，而无需本体感觉状态。

循环记忆通过循环将视觉token序列压缩成固定大小的潜状态。采用两种模型：（1）测试-时训练（TTT）[37, 46]，它通过自监督损失在线快速更新权重，并将其应用于生成输出特征；（2）循环-记忆transformers（RMT）[6, 7]，它将输入序列处理成片段，并使用一个transformer[41]循环更新每个片段的一组可学习记忆槽。

记忆整合机制

符号记忆可以通过将子目标与任务指令连接起来自然地整合到π0.5中。相比之下，感知记忆和循环记忆产生的神经记忆标记需要更多的架构修改。因此，研究了三种整合机制。

记忆即上下文。记忆tokens与原始输入连接起来，并由VLM专家联合处理，直接影响VLM特征。

记忆即调节器。采用自适应层归一化（AdaLN）[32]来使动作专家对外部记忆进行调节。在每一层的前馈模块进入之前，动作特征通过多头注意机制与记忆tokens进行交叉关注，以提取记忆感知表征。这些表征随后被投影到尺度和平移参数上，并通过 AdaLN 调制归一化的动作特征。

记忆即专家。引入一个额外的轻量级记忆专家，它通过专用路径处理记忆tokens。这三个专家通过指定的分块因果注意机制进行交互：动作专家关注 VLM 和记忆专家，而 VLM 和记忆专家之间互不关注。这种分离限制干扰，保留 VLM 的原始行为，并为记忆处理分配专门的容量。

实验设置

为了进行系统比较，评估 MME-VLA 套件中的 14 种 VLA 策略以及 4 种先前的方法。

MME-VLA 套件。对于符号记忆，微调两个 π0.5 变型：SimpleSG 和 GroundSG，它们分别基于简单或落地的语言子目标。子目标由 Gemini-2.5-Pro (Gemini)、Qwen3-VL-4B 模型 (QwenVL) 或模拟器真值 (Oracle) 生成。QwenVL 基于数据集中的子目标标注进行微调，以根据当前图像和累积的子目标历史记录预测下一个子目标，而 Gemini 仅依赖于提示工程，没有针对特定任务的微调。对于感知记忆，用token丢弃（TokenDrop）或帧采样（FrameSamp），每种方法都结合三种整合机制：记忆即上下文（Context）、记忆即调节器（Modul）和记忆即专家（Expert），从而产生六个额外的 π0.5 变型。对于循环记忆，采用 TTT 或 RMT，并结合相同的整合策略，同样产生了六个额外的策略。除非另有说明，将每个变型表示为：

“方法+整合/VLM”，例如 FrameSamp+Modul 或 SimpleSG+QwenVL。

评估协议。为了公平地比较MME-VLA 模型，将记忆预算固定为 512 个tokens，与当前观测中的图像tokens数量相匹配，例如，RMT 中的可学习tokens和 TokenDrop 中的采样tokens都限制在此范围内。评估使用每个任务 50 个episodes（总共 800 个episodes），环境种子与训练环境种子不同。采用多任务设置，使用单个模型训练所有任务，每个episode最多训练 1300 步。结果取自最后三个检查点和三个随机种子（共运行九次）的平均值。

先前方法。与以下四种方法进行比较：（1）𝜋0.5，仅基于当前观测值，不包含任何记忆；（2）𝜋0.5 w/ past actions，将过去的动作与语言tokens连接起来，形成显式符号记忆，其灵感来源于 UniVLA [5]；（3）SAM2Act+ [17]，采用 SAM2 作为骨干网络，通过记忆库提供感知记忆，并预测由外部运动规划器执行的离散关键帧动作；（4）MemER [36]，使用 VLM 从累积的关键帧图像中推断符号子目标，并使用 VLA 执行这些子目标。与仅基于当前图像和子目标历史的符号化变型不同，MemER 在执行过程中从最近的 N 幅图像中选择关键帧，并使用存储所有先前选择的关键帧图像的缓冲区来预测符号子目标。因此，它可以被视为感知记忆和符号记忆的混合体。在复现 MemER 时，遵循其原始提示，在已标注的子目标和关键帧上微调一个额外的 Qwen3-VL-4B 模型，并使用 GroundSG 策略执行预测的子目标。所有先前的方法均进行三次运行评估。

如图所示展示真实机器人操作的平台设置。实验采用一台 7 自由度 Franka Emika Panda 机器人，该机器人配备有 UMI [13] 鳍状手指，安装在 Franka 默认的夹爪上。机器人在桌面环境下运行，并配备三台 RGB-D 摄像头，配置遵循 DROID [23]：两台 Intel RealSense D435 摄像头分别安装在左右肩部，一台 Intel RealSense D405 摄像头安装在腕部。

结果如图所示，感知记忆（FrameSamp + Modul）在以运动为中心、时间敏感且时间跨度长的任务中最为有效，因为在这些任务中，获取扩展的视觉历史和底层运动信息至关重要。相比之下，符号记忆通过提供清晰的子目标指导，在时间跨度短且事件显著的任务中表现优异。MemER 在动态场景切换任务中表现最佳，这可能是因为它保留了关键帧图像，从而在在线执行过程中保留了必要的细节。总的来说，这些结果表明不同的记忆设计具有互补优势，这意味着将它们协同组合可以进一步提高性能。