2026 年 3 月,密西根大学、斯坦福大学和 Figure AI 联合发布了论文《RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies》。记忆对于长时程和历史依赖型机器人操作至关重要,这类任务通常涉及重复动作计数或处理被遮挡的物体。近年来,视觉 - 语言 - 动作(VLA)模型开始融入记忆机制,但评估仍局限于狭窄场景,限制了系统性理解。为此,RoboMME 应运而生:一个大规模的标准化基准测试平台,用于评估和改进长时程、历史依赖型场景下的 VLA 模型。
记忆表示回顾
开放世界机器人操作需要对历史进行推理。例如,家用机器人需将书放回原位、擦拭指定次数,或在观察后折叠衣物。仅靠即时感知不足以预测动作,有效的执行取决于跨时间保留和重用信息的能力。
以往研究通过三种主要方式将记忆融入策略:
- 符号记忆:使用不可微的抽象概念概括历史,如点跟踪轨迹或基于语言的子目标。
- 感知记忆:将历史表示为一组视觉特征,包括多帧视觉标记和记忆库。
- 循环记忆:通过循环模型将上下文特征压缩成固定大小的潜状态。
尽管这些方法证明了记忆的重要性,但它们依赖于不同的框架和不一致的评估协议,导致难以比较哪些设计能推广到不同任务。
现有方法大致分类如下:
- 符号记忆:HistRISE 跟踪对象为中心的 3D 点;UniVLA 将过去动作加入输入提示;MemER 和 Gemini-Robotics-1.5 使用大模型生成基于语言的子目标,但引入高昂推理成本且无法端到端优化。
- 感知记忆:ContextVLA 直接附加过去视觉 token;记忆库方法将视觉特征与辅助信号编码并缓存。
- 循环记忆:BC-RNN 使用 RNN 建模;MITL 和 RoboMamba 采用 Mamba 风格的状态空间模型捕获长时域依赖性。
此外,缺乏捕捉多样化记忆需求的基准也限制了进展。MemoryBench 仅包含三个接近已解决的任务;MIKASA-Robo 任务仍是短时域且缺乏高质量示例。现有基准既不能捕捉真实需求,也无法提供标准化测试平台。
RoboMME 基准介绍
为了解决这些局限,RoboMME 是一个统一的大规模机器人仿真基准,专为记忆增强型操作评估设计。它从人类记忆认知理论中汲取灵感,将记忆分为四个维度:
- 时间记忆:用于事件累积和排序。
- 空间记忆:用于在遮挡和场景变化下追踪物体位置。
- 物体记忆:用于解析物体在不同时间点的指称身份。
- 程序记忆:用于复现先前演示过的运动模式。

这四个维度分别定义了四个任务套件:计数、持久性、指称和模仿,每个套件包含四个精心设计的任务。RoboMME 总共包含 16 个不同的长时域任务,每个任务有 1600 个演示,产生 77 万个高质量时间步。
基于 RoboMME,开发了一系列基于π0.5 骨干网络的 14 个记忆增强型 VLA 模型,以系统研究不同记忆表征如何影响操作性能。符号记忆以语言子目标形式实现;可区分的神经表征(感知和循环记忆)通过三种机制整合:作为上下文、作为调节器、作为专家。
基于认知动机的任务设计
任务设计基于已建立的人类记忆认知模型。经典理论将长期记忆分为程序性记忆和陈述性记忆(含情景和语义记忆)。情景记忆支持对事件和经验回忆,程序性记忆编码运动技能。
四种记忆类型对应认知维度:时间、地点、事物和过程。具体而言:
- 计数:评估时间记忆,要求智能体重复执行指定次数动作。
- 持久性:侧重空间记忆,评估对物体位置的跟踪能力。
- 参考:评估物体记忆,持续识别物体。
- 模仿:评估程序性记忆,复现演示的运动模式。







