RoboMME：机器人通用策略的记忆基准测试与理解

RoboMME 是由密西根大学等机构提出的机器人记忆基准测试。针对长时程操作中的历史依赖问题，该基准包含时间、空间、物体和程序四种记忆维度的 16 个任务。研究基于π0.5 骨干网络构建了 14 种记忆增强型 VLA 模型，对比了符号、感知和循环三种记忆表征及不同整合机制的效果。实验表明感知记忆在长时域任务中表现更佳，为机器人策略评估提供了标准化方案。

竹影清风发布于 2026/4/8更新于 2026/7/1638 浏览

2026 年 3 月，密西根大学、斯坦福大学和 Figure AI 联合发布了论文《RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies》。记忆对于长时程和历史依赖型机器人操作至关重要，这类任务通常涉及重复动作计数或处理被遮挡的物体。近年来，视觉 - 语言 - 动作（VLA）模型开始融入记忆机制，但评估仍局限于狭窄场景，限制了系统性理解。为此，RoboMME 应运而生：一个大规模的标准化基准测试平台，用于评估和改进长时程、历史依赖型场景下的 VLA 模型。

记忆表示回顾

开放世界机器人操作需要对历史进行推理。例如，家用机器人需将书放回原位、擦拭指定次数，或在观察后折叠衣物。仅靠即时感知不足以预测动作，有效的执行取决于跨时间保留和重用信息的能力。

以往研究通过三种主要方式将记忆融入策略：

符号记忆：使用不可微的抽象概念概括历史，如点跟踪轨迹或基于语言的子目标。
感知记忆：将历史表示为一组视觉特征，包括多帧视觉标记和记忆库。
循环记忆：通过循环模型将上下文特征压缩成固定大小的潜状态。

尽管这些方法证明了记忆的重要性，但它们依赖于不同的框架和不一致的评估协议，导致难以比较哪些设计能推广到不同任务。

现有方法大致分类如下：

符号记忆：HistRISE 跟踪对象为中心的 3D 点；UniVLA 将过去动作加入输入提示；MemER 和 Gemini-Robotics-1.5 使用大模型生成基于语言的子目标，但引入高昂推理成本且无法端到端优化。
感知记忆：ContextVLA 直接附加过去视觉 token；记忆库方法将视觉特征与辅助信号编码并缓存。
循环记忆：BC-RNN 使用 RNN 建模；MITL 和 RoboMamba 采用 Mamba 风格的状态空间模型捕获长时域依赖性。

此外，缺乏捕捉多样化记忆需求的基准也限制了进展。MemoryBench 仅包含三个接近已解决的任务；MIKASA-Robo 任务仍是短时域且缺乏高质量示例。现有基准既不能捕捉真实需求，也无法提供标准化测试平台。