TWIST2：基于 VR 的人形机器人全身遥操与视觉自主策略学习

前言

在让人形机器人执行行走 - 操作任务时，需要全身遥操机器人采集任务数据。目前效果较好的全身摇操控制方案并不多。

此前有 CLONE 等方案，但尚未完全开源。本文解读 TWIST2，其核心创新是无动捕下的全身控制。

第一部分 TWIST2：可扩展、可移植且全面的人形数据采集系统

1.1 引言与相关工作

1.1.1 引言

如 TWIST2 原论文所说，现有的人形机器人远程操作系统主要分为三大类：

全身控制：直接跟踪人体姿态，包括手臂、躯干和腿部在内的所有关节以统一方式进行控制（如 HumanPlus [12]，TWIST [1]）。
部分全身控制：通过协调手臂和躯干等特定身体部位，同时让双腿跟踪底盘速度指令（例如，AMO [3]，CLONE [4]）。
上下半身解耦控制（例如，MobileTV [11]，HOMIE [2]）。

在这些方案中，以 VR 为基础的解决方案（例如 AMO 和 CLONE）具有较强的实用性，但仅限于实现简单移动的移动技能，难以捕捉人类自然展现的动态全身协调技能。

相比之下，完整的全身控制最有可能释放类人机器人多样化的能力，TWIST [1] 就是一个典型例证。然而，这类系统通常依赖昂贵且不可移动的动作捕捉设备，因此部署范围被限制在实验室环境中。

对此，来自 Amazon FAR、Stanford University、USC、UC Berkeley、CMU 的研究者进一步提出了 TWIST2。

对应的 paper 地址为：TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System
对应的作者为：Yanjie Ze, Siheng Zhao, Weizhuo Wang, Angjoo Kanazawa, Rocky Duan, Pieter Abbeel, Guanya Shi, Jiajun Wu, C. Karen Liu
对应的项目地址为：yanjieze.com/TWIST2
对应的 GitHub 地址为：github.com/amazon-far/TWIST2

这是一套人形机器人遥操作与数据采集系统，能够保留全身控制的强大能力，同时提升了便携性与可扩展性。

在 VR 设备上，采用 PICO 4U [13]，且通过头戴显示器、手持控制器以及安装于脚踝的两个动作追踪器 (VR + 追踪器的成本总共为 1000 刀)，实现了全身动作流传输，无需昂贵的动作捕捉系统。
鉴于自我视角视觉对于类人任务执行至关重要，作者设计了一种低成本且非侵入式的脖颈结构 (2-DoF 颈部，成本 250 刀，当然下面还会提到，还搭载了 ZED Mini 立体相机，成本 400 刀)，能够与 Unitree G1 及 VR 遥操作生态系统无缝集成。
依托这些便携组件，作者构建了一套完整的人体全身姿态到人形机器人各电机关节位置的重定向处理流程。

且为将重定向后的动作在机器人上准确执行，作者利用强化学习及大规模仿真交互，在精心筛选的动作数据上训练了一个鲁棒的动作追踪控制器。

最终，通过这套系统，使得：

能够远程操控机器人执行极长时序且细致入微的全身灵巧技能，例如折叠毛巾，以及诸如将物品通过门等移动技能；
能够高效地采集人类操作演示，比如在 20 分钟内无故障地采集约 100 次成功的操作演示。作者还发现，第一视角主动立体视觉对于长时序的移动与灵巧远程操作至关重要。

此外，在此可扩展数据采集流程的基础上，作者进一步提出了一种分层视觉运动策略学习框架，该框架包含两个组成部分：

第一部分是与遥操作过程中所用相同的运动跟踪控制器，用作低层控制器。
第二个组成部分是扩散策略（Diffusion Policy），它基于视觉观测直接预测全身关节位置，并将预测结果输入到底层控制器。

作者宣称，据他们所知，这是首个能够实现基于视觉的全身人形机器人自主控制的策略学习框架，突破了以往仅依赖如躯干速度等简化指令的局限。

这一能力的实现得益于作者搭建的数据采集系统，该系统为训练过程提供了高质量的示范数据。

TWIST2：基于 VR 的人形机器人全身遥操与视觉自主策略学习

前言

第一部分 TWIST2：可扩展、可移植且全面的人形数据采集系统

1.1 引言与相关工作

1.1.1 引言

1.1.2 相关工作：全身遥操、视觉控制

更多推荐文章

相关免费在线工具

1.1.3 问题表述

1.2 TWIST2 的完整方法论

1.2.1 具有主动视觉的仿人机器人

1.2.2 便携式无需动作捕捉的全身人体数据源

1.2.3 全面的人体到人形机器人动作复现

1.2.3.1 身体重定向

1.2.3.2 手部重定向

1.2.3.3 颈部重定向

1.2.4 用于低层控制的通用运动跟踪器训练

1.2.5 可扩展的人形机器人数据采集

1.2.6 全身视觉运动控制策略学习

1.3 实验结果

1.3.1 长时程远程操作

1.3.2 高效的数据采集

更多推荐文章

相关免费在线工具

TWIST2：基于 VR 的人形机器人全身遥操与视觉自主策略学习

前言

第一部分 TWIST2：可扩展、可移植且全面的人形数据采集系统

1.1 引言与相关工作

1.1.1 引言

1.1.2 相关工作：全身遥操、视觉控制

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.1.3 问题表述

1.2 TWIST2 的完整方法论

1.2.1 具有主动视觉的仿人机器人

1.2.2 便携式无需动作捕捉的全身人体数据源

1.2.3 全面的人体到人形机器人动作复现

1.2.3.1 身体重定向

1.2.3.2 手部重定向

1.2.3.3 颈部重定向

1.2.4 用于低层控制的通用运动跟踪器训练

1.2.5 可扩展的人形机器人数据采集

1.2.6 全身视觉运动控制策略学习

1.3 实验结果

1.3.1 长时程远程操作

1.3.2 高效的数据采集

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具