TWIST2 全身 VR 遥操控制系统：基于视觉观测预测人形机器人关节位置

TWIST2——全身 VR 遥操控制

前言

在让人形机器人执行行走 - 操作任务时，需要全身遥操机器人采集任务数据。目前效果较好的全身摇操控制方案并不多。

CLONE 尚未完全开源
本文解读的 TWIST2，其核心创新是无动捕下的全身控制

第一部分 TWIST2：可扩展、可移植且全面的人形数据采集系统

1.1 引言与相关工作

1.1.1 引言

现有的人形机器人远程操作系统主要分为三大类：

全身控制：直接跟踪人体姿态，包括手臂、躯干和腿部在内的所有关节以统一方式进行控制（如 HumanPlus, TWIST）。
部分全身控制：通过协调手臂和躯干等特定身体部位，同时让双腿跟踪底盘速度指令（例如 AMO, CLONE）。
上下半身解耦控制（例如 MobileTV, HOMIE）。

在这些方案中，以 VR 为基础的解决方案具有较强的实用性，但仅限于实现简单移动的移动技能，难以捕捉人类自然展现的动态全身协调技能。相比之下，完整的全身控制最有可能释放类人机器人多样化的能力。然而，这类系统通常依赖昂贵且不可移动的动作捕捉设备，因此部署范围被限制在实验室环境中。

对此，来自 Amazon FAR、Stanford University、USC、UC Berkeley、CMU 的研究者进一步提出了 TWIST2。

Paper: TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System
Project: yanjieze.com/TWIST2
GitHub: github.com/amazon-far/TWIST2

这是一套人形机器人遥操作与数据采集系统，能够保留全身控制的强大能力，同时提升了便携性与可扩展性。

在 VR 设备上，采用 PICO 4U，且通过头戴显示器、手持控制器以及安装于脚踝的两个动作追踪器，实现了全身动作流传输，无需昂贵的动作捕捉系统。
作者设计了一种低成本且非侵入式的脖颈结构（2-DoF 颈部），能够与 Unitree G1 及 VR 遥操作生态系统无缝集成。
依托这些便携组件，构建了一套完整的人体全身姿态到人形机器人各电机关节位置的重定向处理流程。

最终，通过这套系统，使得：

能够远程操控机器人执行极长时序且细致入微的全身灵巧技能，例如折叠毛巾，以及诸如将物品通过门等移动技能；
能够高效地采集人类操作演示，比如在 20 分钟内无故障地采集约 100 次成功的操作演示。

此外，在此可扩展数据采集流程的基础上，作者进一步提出了一种分层视觉运动策略学习框架，该框架包含两个组成部分：

第一部分是遥操作过程中所用的运动跟踪控制器，用作低层控制器。
第二个组成部分是扩散策略（Diffusion Policy），它基于视觉观测直接预测全身关节位置，并将预测结果输入到底层控制器。

这是首个能够实现基于视觉的全身人形机器人自主控制的策略学习框架，突破了以往仅依赖如躯干速度等简化指令的局限。

1.1.2 相关工作：全身遥操、视觉控制

首先，对于全身人形远程操作

远程操作对于使仿人机器人能够与复杂的真实环境交互并执行复杂的行走与操作任务至关重要。具体如上文提到的，相关工作可分为三类：a）解耦控制，b）部分全身控制，c）完全全身控制。

TWIST2 是首个将全身控制与便携性相结合的系统，实现了包括第一人称遥操作、精确跟踪和单人高效操控在内的全面功能。

其次，对于视觉人形机器人控制

此前关于视觉人形机器人控制的研究主要依赖激光雷达实现感知行走，通常采用针对特定任务的仿真到现实（sim-to-real）强化学习（RL）方法。

TWIST2 全身 VR 遥操控制系统：基于视觉观测预测人形机器人关节位置