UMI：机器人数据采集的通用框架

综述由AI生成UMI 是斯坦福大学提出的通用操作接口，旨在解决机器人数据采集中的效率与成本问题。它通过手持夹持器集成传感器与摄像头，对齐人类示范与机器人执行的视觉输入，减少观测差异。系统结合鱼眼镜头、侧面镜及 IMU 融合技术，实现高精度姿态跟踪与深度感知。针对延迟问题，UMI 引入延迟匹配机制，涵盖相机、本体感觉及执行延迟的估算与补偿，确保策略在真实环境中的可迁移性。该框架支持动态、双臂及长时序任务，为大规模野外机器人数据采集提供了低成本、高可行性的解决方案。

星河入梦发布于 2026/4/10更新于 2026/5/2312 浏览

UMI：机器人数据采集的通用框架

引言

在机器人学习领域，如何高效采集高质量的训练数据一直是研究的核心挑战。传统方式主要包括遥操作、基于视频的学习与手持夹持器。其中，遥操作虽然能够直接获得可用于模仿学习的数据，但硬件部署复杂、成本高昂且依赖专家操作；基于人类视频的学习方法具有良好的环境多样性，但由于人与机器人之间存在显著的形态差异，动作迁移效果有限；而手持夹持器作为一种折中方案，虽然提升了数据采集的直观性与便携性，但以往研究多局限于简单的抓取或静态操作，难以覆盖动态与复杂任务。

面对这些痛点，斯坦福大学提出了 Universal Manipulation Interface (UMI)。其核心创新在于三点：

手持夹持器设计 —— 将传感器和摄像头直接安装在夹持器上，使人类示范与机器人执行的视觉输入对齐，从而大幅减少观测空间的差异；
改造后的 SLAM 系统 —— 结合视觉与动作信息，解决了传统基于单目相机的动作恢复精度不足的问题；
IMU 融合 —— 借助 GoPro 内置的惯性测量单元（IMU），在高速或动态操作中依然能够保持稳定、精确的 6DoF 姿态跟踪。

文章配图

这种设计不仅提高了数据采集的可移植性与低成本优势，还使机器人能够学习动态、双臂以及长时序等复杂操作任务，从而为大规模的'in-the-wild'机器人数据采集与策略学习提供了全新途径。

1. 什么是 UMI

UMI（Universal Manipulation Interface）本质上是一个用于数据收集和策略学习的框架。它通过手持夹持器的设计，使人类能够以一种简单、快速且低成本的方式收集训练机器人所需的数据。与传统遥操作或视频学习方法相比，UMI 更强调实际可用性与高效性，能够覆盖更复杂的动态和长时序操作任务。

UMI 的一大亮点是对延迟问题的全面考虑。在真实机器人系统中，延迟主要来自三个环节：

环境观测延迟 —— 传感器采集环境信息时不可避免的延迟；
推理延迟 —— 系统对感知数据进行处理和决策的延迟；
执行延迟 —— 推理完成后，指令传输并驱动机器人执行动作的延迟。

为了保证策略在真实环境中仍具备良好的对齐性与可迁移性，UMI 在框架中引入了延迟匹配机制，使策略在推理和执行阶段能够与训练时的数据保持一致。

在感知设计上，UMI 采用了一系列巧妙的硬件改进：

文章配图

鱼眼镜头（②）：提供超广角视野，增强对场景的整体感知；
改造后的 SLAM 与 GoPro 内置 IMU（① & ④）：结合视觉与惯性传感器，实现高速和动态场景下稳定、精确的姿态跟踪；
侧面镜（③）：在夹持器两侧加入物理镜面，形成隐式的立体观察，弥补单目视觉在深度感知上的不足；
夹持器跟踪（⑤）：实现对夹持器运动过程的连续追踪；
基于运动学的数据过滤（⑥）：保证所采集的数据在不同机器人结构下的可行性。

通过这一系列设计，UMI 在硬件简洁性与数据表达丰富性之间取得了平衡，为机器人策略学习提供了一个通用、可扩展的解决方案。

2. UMI 的硬件结构设计

UMI 的数据采集设计核心在于相机与传感器的组合使用。其中，GoPro 相机作为主要的视觉输入设备，能够在低成本条件下提供高分辨率和高帧率的视频流，是整个系统的数据入口。为了提升场景感知能力，相机搭配了鱼眼镜头，其超广角（约 155°）能够在单帧图像中覆盖更多环境信息，减少因相机视野狭窄导致的目标丢失问题。

为了进一步获取深度信息，UMI 在夹持器两侧安装了物理侧面镜。这些镜子相当于提供了额外的虚拟摄像头视角，通过镜像反射形成隐式的双目视觉，从而弥补单目相机在深度估计上的不足。

除了视觉感知，UMI 还充分利用 GoPro 内置的 IMU（惯性测量单元）。IMU 由加速度计和陀螺仪组成，可以实时捕捉相机的运动加速度和角速度。当视觉因高速运动或遮挡而失效时，IMU 依然能够提供稳定的位姿信息。通过视觉与惯性融合（视觉 - 惯性 SLAM），UMI 可以在动态操作场景下保持对末端执行器的精确动作跟踪。

UMI：机器人数据采集的通用框架

UMI：机器人数据采集的通用框架

引言

1. 什么是 UMI

2. UMI 的硬件结构设计

更多推荐文章

相关免费在线工具

3. 延迟测量与估计

1. 相机延迟（Camera Latency, τ_cam）

更多推荐文章

相关免费在线工具

UMI：机器人数据采集的通用框架

UMI：机器人数据采集的通用框架

引言

1. 什么是 UMI

2. UMI 的硬件结构设计

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 延迟测量与估计

1. 相机延迟（Camera Latency, τ_cam）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具