UMI 机器人数据采集通用框架
引言
在机器人学习领域,如何高效采集高质量的训练数据一直是研究的核心挑战。传统方式主要包括遥操作(teleoperation)、基于视频的学习(video learning)与手持夹持器(hand-held gripper)。其中,遥操作虽然能够直接获得可用于模仿学习的数据,但硬件部署复杂、成本高昂且依赖专家操作;基于人类视频的学习方法具有良好的环境多样性,但由于人与机器人之间存在显著的形态差异(embodiment gap),动作迁移效果有限;而手持夹持器作为一种折中方案,虽然提升了数据采集的直观性与便携性,但以往研究多局限于简单的抓取或静态操作,难以覆盖动态与复杂任务。
针对这些问题,斯坦福大学提出了 Universal Manipulation Interface (UMI)。其核心创新在于:
- 手持夹持器设计 —— 将传感器和摄像头直接安装在夹持器上,使人类示范与机器人执行的视觉输入对齐,从而大幅减少观测空间的差异;
- 改造后的 SLAM 系统 —— 结合视觉与动作信息,解决了传统基于单目相机的动作恢复精度不足的问题;
- IMU 融合 —— 借助 GoPro 内置的惯性测量单元(IMU),在高速或动态操作中依然能够保持稳定、精确的 6DoF 姿态跟踪。

这种设计不仅提高了数据采集的可移植性与低成本优势,还使机器人能够学习动态、双臂以及长时序等复杂操作任务,从而为大规模的'in-the-wild'机器人数据采集与策略学习提供了全新途径。
1. 什么是 UMI
UMI(Universal Manipulation Interface)本质上是一个用于数据收集和策略学习的框架。它通过手持夹持器(hand-held gripper)的设计,使人类能够以一种简单、快速且低成本的方式收集训练机器人所需的数据。与传统遥操作或视频学习方法相比,UMI 更强调实际可用性与高效性,能够覆盖更复杂的动态和长时序操作任务。
UMI 的一大亮点是对延迟问题的全面考虑。在真实机器人系统中,延迟主要来自三个环节:
- 环境观测延迟 —— 传感器采集环境信息时不可避免的延迟;
- 推理延迟 —— 系统对感知数据进行处理和决策的延迟;
- 执行延迟 —— 推理完成后,指令传输并驱动机器人执行动作的延迟。
为了保证策略在真实环境中仍具备良好的对齐性与可迁移性,UMI 在框架中引入了延迟匹配机制,使策略在推理和执行阶段能够与训练时的数据保持一致。
在感知设计上,UMI 采用了一系列巧妙的硬件改进:

- 鱼眼镜头(②):提供超广角视野,增强对场景的整体感知;
- 改造后的 SLAM 与 GoPro 内置 IMU(① & ④):结合视觉与惯性传感器,实现高速和动态场景下稳定、精确的姿态跟踪;
- 侧面镜(③):在夹持器两侧加入物理镜面,形成隐式的立体观察,弥补单目视觉在深度感知上的不足;
- 夹持器跟踪(⑤):实现对夹持器运动过程的连续追踪;
- 基于运动学的数据过滤(⑥):保证所采集的数据在不同机器人结构下的可行性。
通过这一系列设计,UMI 在硬件简洁性与数据表达丰富性之间取得了平衡,为机器人策略学习提供了一个通用、可扩展的解决方案。
2. UMI 的硬件结构设计
UMI 的数据采集设计核心在于相机与传感器的组合使用。其中,GoPro 相机作为主要的视觉输入设备,能够在低成本条件下提供高分辨率和高帧率的视频流,是整个系统的数据入口。为了提升场景感知能力,相机搭配了鱼眼镜头,其超广角(约 155°)能够在单帧图像中覆盖更多环境信息,减少因相机视野狭窄导致的目标丢失问题。
为了进一步获取深度信息,UMI 在夹持器两侧安装了物理侧面镜。这些镜子相当于提供了额外的虚拟摄像头视角,通过镜像反射形成隐式的双目视觉,从而弥补单目相机在深度估计上的不足。
除了视觉感知,UMI 还充分利用 GoPro 内置的 IMU(惯性测量单元)。IMU 由加速度计和陀螺仪组成,可以实时捕捉相机的运动加速度和角速度。当视觉因高速运动或遮挡而失效时,IMU 依然能够提供稳定的位姿信息。通过视觉与惯性融合(视觉 - 惯性 SLAM),UMI 可以在动态操作场景下保持对末端执行器的精确动作跟踪。




