UniDex：为自我为中心人类视频开发一款用于通用灵巧手控制的机器人基础套件

优质文章学习记录

11 Apr 2026 — 21 min read

26年3月来自清华、姚期智上海研究院、中山大学和UNC Chapel Hill的论文“UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos”。

由于收集真实机器人远程操作数据的成本高昂、手部形态的异质性以及控制的高维度，灵巧操作仍然面临挑战。UniDex，是一个机器人基础套件，它将大规模的以机器人为中心数据集与统一的视觉-语言-动作 (VLA) 策略以及用于通用灵巧手控制的实用人机数据采集设置相结合。首先，构建 UniDex 数据集，这是一个以机器人为中心的数据集，包含来自自我为中心人类视频数据集的 5 万多条轨迹，涵盖八只灵巧的手（6-24 个自由度）。为了将人类数据转换为机器人可执行的轨迹，采用一种人机交互的重定向程序来对齐指尖轨迹，同时保持合理的手-物体接触，并且处理显式的 3D 点云，其中人手部分被掩码以消除狭窄的运动学和视觉间隙。其次，引入功能-执行器-对齐空间（FAAS），这是一个统一的动作空间，它将功能相似的执行器映射到共享坐标系，从而实现跨手迁移。利用FAAS作为动作参数化，训练UniDex-VLA，这是一个在UniDex数据集上预训练并使用任务演示进行微调的3D VLA策略。此外，构建UniDex-Cap，这是一个简单的便携式采集装置，可以记录同步的RGB-D流和人手姿态，并将其转换为机器人可执行的轨迹，从而实现人机数据协同训练，减少对昂贵的机器人演示的依赖。在具有挑战性的双手工具使用任务中，UniDex-VLA的平均任务完成率达到81%，大幅优于之前的VLA基线模型，同时展现出强大的空间泛化能力、物体泛化能力和零样本跨手泛化能力。 UniDex-Dataset、UniDex-VLA 和 UniDex-Cap 共同构成一个可扩展的基础套件，用于通用灵巧操作。

机器人基础策略与统一动作空间

基于扩散的策略及其变体构成强大的模仿学习基线[13, 51, 57, 58, 67]。随着LLM和VLM的兴起，视觉-语言-动作（VLA）模型[6-8, 23, 27, 33, 39, 71-73]进一步扩展模仿学习的规模，但大多数现有方法都是在大规模的以机械臂为中心的数据集上进行预训练的。最近针对灵巧型VLA的研究[22, 75]利用了仿真数据或有限的真实世界数据，通常侧重于抓取动作，并依赖于特定于手部的表征。相比之下，UniDex-VLA在UniDex数据集上进行预训练，旨在作为更通用的灵巧操作的统一基础策略。

为机器人基础策略设计统一的动作空间以应对具身异质性，对于跨具身泛化至关重要。RDT-1B [33] 保留控制信号的语义结构，而 π0 [7] 采用左对齐的动作表示，其他方法则引入潜动作空间 [8, 71]。然而，这些方法主要针对以夹爪为中心的动作。EgoVLA [60] 试图利用人类参数作为灵巧性表示，但需要在后训练阶段进行逆运动学计算，这会引入额外的误差，尤其是在高自由度灵巧手的情况下。相比之下，FAAS 提供一种以功能为中心的统一动作表示，无需后处理，从而能够实现更可靠的跨手技能迁移。

从人类视频中学习

从人类视频中学习可以缓解数据成本瓶颈，但会引入视觉和运动学领域的差距。以往的研究利用人手轨迹进行规划或控制[9, 29, 34, 46, 52, 55, 63]；其他研究则应用基于仿真-到-真实流水线的重定向[11, 30, 66]或人机交互修正[53]，还有一些研究与机器人数据联合训练[25, 48, 64, 78]来弥合差距。然而，许多此类流水线主要针对机械臂，或者扩展性不佳。此外，还有一些方法在以自我为中心的人类视频上进行预训练，而没有显式地监督手部运动[41, 42, 61, 68]。较新的方法首先在以人为中心的视频上预训练基础模型来预测人手运动，然后进行专门的后训练以使其与机器人动作对齐[38, 60]，然而这些额外的对齐步骤可能既复杂又不稳定。本文方法则生成以机器人为中心的灵巧手部监督数据用于预训练，从而无需在微调过程中使用专门的对齐技巧，同时还能保持双手间的控制。

UniDex

如图所示：UniDex，一个用于异构灵巧手部模型的机器人基础套件。首先从以人为中心的视频中整理出 UniDex 数据集，以获得一个多样化的、以机器人为中心的数据集，用于大规模预训练。在此基础上，训练 UniDex-VLA，这是一个统一的 3D VLA 模型，它通过任务演示进行微调，并在具有挑战性的真实世界工具使用任务上进行评估。该策略展现出强大的灵巧能力、零样本物体和跨手泛化能力，并且显著优于现有的 VLA 基线模型。此外，设计一个实用的设置 UniDex-Cap，以支持人机数据协同训练，从而进一步降低数据成本。

概述

UniDex 数据集源自四个基于 RGB-D 坐标系的人体操作数据集——H2O [28]、HOI4D [35]、HOT3D [4] 和 TACO [36]。根据需要标注语言指令，将视频分割成与这些指令对齐的轨迹片段，并过滤掉无效片段。

从人体数据到机器人可执行轨迹的转换过程如图所示。应用此流程，构建 UniDex 数据集，该数据集包含 900 万个图像-点云-动作帧配对（以 30 fps 的帧率记录）以及超过 5 万条轨迹，涵盖八个灵巧手平台（Inspire、Leap、Shadow、Allegro、Ability、Oymotion、Xhand 和 Wuji），活动自由度范围为 6 到 24。

如图可视化该数据集及其子集的动词-宾语词云，涵盖了各种日常操作任务，例如使用手机、打开牛奶盒和用锅铲翻炒食物。而表 1 从轨迹数量、手部多样性、场景多样性和支持的感知模态等方面，将 UniDex 数据集与已发布的灵巧操作数据集 [20, 37, 56] 进行了比较，突显了 UniDex 数据集的优势。由于其多样性和以机器人为中心的形式（即与训练后阶段的具身差距最小），UniDex 数据集为预训练灵巧操作模型奠定了坚实的基础。

人机转换

将人体数据转换为机器人轨迹需要克服两个核心障碍：运动学和视觉。

运动学重定向

指尖是人机交互中的主要接触点。目标是在三维空间中将人体指尖轨迹与机器人手的轨迹对齐，同时允许进行全局手基调整，以更好地确保物理上合理的接触。

给定一个人手的姿态，提取 m 个指尖目标：

X⋆^ = 【x⋆^_1,…,x⋆_m】, (1)

其中 m 等于机器人手指的数量。世界坐标系中人手的全局变换为 T_hand。

为了在允许基座调整的情况下精确应用基于指尖的逆运动学，引入一个 6 自由度对齐偏移，该偏移通过插入在真实机器人基座之前的虚拟基座来实现。令 T_offset 为从虚拟基座到真实基座的刚体变换，令 T^dummy_world 为虚拟基座在世界坐标系中的位姿。指尖 i 的正向运动学为：

x_i(q;T_offset) = Trans(T^dummy_world T_offset T_i (q))， (2)

其中 T_i (q) 为从机器人基座到指尖 i 的齐次变换，Trans(·) 提取平移。令 T^dummy_world = T_hand 并在优化过程中保持其固定。堆叠指尖残差即可得到逆运动学（IK）误差：

e(q, T_offset) (3)

对于包含模仿关节结构的机器人手（例如，Inspire、Oymotion、Agility），通过迭代校正过程处理相关关节。在解决主要逆运动学（IK）问题后，每个模仿关节 j_s 根据其主关节 j_m 进行更新，公式为：

q_j_s = k q_j_m + c (4)

该公式与运动学模型规范一致，其中 k 和 c 表示模仿约束。此修正过程重复 N 次迭代，每次迭代重新评估指尖误差，直至收敛。

为了便于实现，提供一个用户友好且快速的流程。整个流程是一个两阶段的、人机交互的重定向程序。

自动阶段。给定初始偏移量 T_offset，用 PyBullet [15] 的多末端执行器 IK 求解器求解公式（3），以获得一个关节构型 q，该构型在满足关节限制和阻尼的前提下，使指尖误差最小化。
交互式阶段。一个轻量级的图形用户界面 (GUI) 展示 T_offset 的六个自由度（如上上图所示的三个平移和三个旋转）以及 IK 求解器的其他构型。用户通过视觉检查对齐情况并手动调整 T_offset；每次调整后，重新求解 IK 问题。该过程通常只需几次手动微调即可收敛，从而在各种姿态下实现稳健的指尖对齐。上上图中的 (1) 和 (3) 展示了交互阶段前后的对比。

对于每个人类数据集和每只灵巧的手，执行基本的交互式校准，以选择虚拟基准偏移量来处理数据集之间的系统性差异（例如，坐标系/手部姿态估计偏差）和手部形态差异。然后，调整一小部分帧，重点关注接触丰富的片段，以提高接触的合理性。在实践中，基本标定足以覆盖绝大多数轨迹，使变换流程能够以适度的人工投入扩展到大型以自我为中心的数据集。

视觉对齐

从 RGB-D 帧计算点云。然后，为了减少视觉间隙，用 WiLoR [44] 和 SAM2 [49] 对人手进行掩码，并移除相应的点。接着，将重定位的机器人手网格放置到场景中，并将其几何体渲染到点云中。最后，用针孔相机模型 [21] 将融合后的点云重新投影回 RGB-D 帧，以避免因深度顺序错误而导致的遮挡，从而与实际微调过程中使用的单视图设置相匹配。

统一动作空间：FAAS

用涵盖多种灵巧手形态的 UniDex 数据集预训练机器人基础模型。因此，一个能够实现跨手迁移的统一动作空间至关重要。为此，引入一种简单而有效的动作表示方法——功能-执行器-对齐空间 (FAAS)。对于运动学模型中具有 n 个驱动自由度的任何灵巧手，每个执行器都映射到与其功能角色对应的 FAAS 索引。这里，广义地使用“执行器”来指代从机器人 URDF 导出的任何可控自由度/通道，包括存在的模仿关节。

从概念上讲，FAAS 提供一个跨形态共享的以功能为中心的控制接口，而不是一个特定于 URDF 的关节空间。尽管灵巧的手在连杆长度、耦合方式和布局上有所不同，但它们都实现一组基本功能——例如拇指-食指捏握、手指弯曲握住把手或侧向内收/外展以稳定物体。FAAS 根据这些功能角色对执行器进行分组，并将它们映射到一个通用坐标系中，从而消除特定于身体形态的干扰因素，同时保留与任务相关的控制语义。如图展示不同手的拇指和无名指如何将各个关节映射到 FAAS 索引。

FAAS 是一个 82 维的动作向量。前 18 个维度编码腕部姿态（每只手 9 个），其中每个 9 维姿态由一个 6 维连续旋转表示（分别对应局部 x 轴和 y 轴的两个 3 维向量）和一个 3 维平移组成。其余 64 个维度编码关节指令，每只手 32 个槽位。在这些插槽中，预留21个基础驱动器插槽，供所有手型共享；其余插槽则用于特定手型的自由度（例如，Shadow Hand上的额外腕关节）以及未来手型的扩展。

VLA 策略

UniDex-VLA 旨在成为一个基于语言条件的 3D 灵巧控制基础模型。与以往将 2D 编码器与低维夹爪动作相结合的 VLA 不同，其设置本质上是体积性的、高自由度的：工具的使用需要对精细的 3D 几何形状和接触条件进行推理，尤其是在以自我为中心的单视图观察中。通过将 3D 视觉输入与统一的 FAAS 动作空间相结合，UniDex-VLA 将几何感知和控制统一到一个共享的表征中，从而支持空间、物体和跨手泛化。

观测和动作输出

如图所示，t 时刻的观测值为 o_t = [P_t, l_t, q_t]，其中 P_t 是由 RGB-D 图像裁剪和下采样得到的单视图彩色点云，l_t 为自然语言指令，q_t 为机器人本体感觉状态向量。对 p(A_t | o_t) 进行建模，其中 A_t = [a_t, . . . , a_t+H−1] 表示一个 H 步动作块 [74]。q_t 和每个 a_t 均采用 FAAS 表示。对于 q_t 中的手腕，用绝对位姿；对于动作输出，采用相对于动作块第一帧的相对手腕位姿，遵循 UMI [14]。对于灵巧手关节，在 q_t 和 a_t 中也同样使用抽象表示。

模型架构

UniDex-VLA 架构基本沿用 π0 [7] 的设计，并针对点云输入进行修改。具体而言，将 PaliGemma [5] 中的 SigLIP [69] 2D 视觉编码器替换为 Uni3D [77]，后者是一个强大的 3D 点云编码器。Uni3D 采用标准的 ViT [18] 设计，并由预训练的 2D ViT 初始化，将点云特征与图像-文本对齐的特征进行对齐。用条件流匹配目标训练策略，并在推理时通过前向欧拉积分 [32] 生成去噪的动作块。

实验装置

硬件平台。真实世界实验使用一台配备三个灵巧末端执行器的7自由度Franka机械臂：Inspire手（6个主动自由度，12个完全自由度）、Wuji手（20个主动自由度）和Oymotion手（6个主动自由度，11个完全自由度），所有末端执行器均安装在机械臂末端。Intel RealSense L515传感器为所有实验提供以自我为中心的RGB-D观测数据。完整的实验工作站如图所示。

任务描述。日常操作通常涉及许多为人类手设计的工具，例如剪刀、喷雾瓶和清扫器，这些工具对手指协调性和手内重构能力提出了严格的要求。为了更好地测量方法的灵巧性和通用性，评估五项具有挑战性的工具使用任务，如图展示不同阶段的可视化结果：（i）制作咖啡（灵感手）：抓取水壶并将其举到滴滤器上，倒入水制作手冲咖啡。任务分解为抓取水壶（抓取）和倒水（倒水）。（ii）清扫物体（灵感手）：抓取扫帚并将桌面上的物体扫入簸箕。任务分解为抓取扫帚（抓取）和清扫（清扫）。（iii）浇花（无极手）：抓取喷雾瓶，将其举起，并用拇指按下扳机浇花。任务分解为抓取瓶子（抓取）和按下扳机浇水（按下）。（iv）剪开袋子（无极手）：将拇指、中指和无名指插入剪刀中，以类似人类的方式握持剪刀剪开袋子。任务分解为剪刀抓取（Grasp）和切割（Cut）。（v）使用鼠标（无极手）：将手指放在电脑鼠标上，用它将文件拖入桌面界面中的U盘文件夹，然后单击鼠标完成操作。将所有任务阶段的平均成功率作为平均任务进度进行报告，作为比较不同方法的主要指标。

演示数据收集。远程操作系统基于OpenTeleVision [12] 和dex-retargeting [47]，并使用Apple Vision Pro。每个任务仅收集50个演示数据用于微调。

基线。将UniDex-VLA与代表性模仿学习和VLA方法进行比较：扩散策略（DP）[13]、3D扩散策略（DP3）[67]以及在机械臂动作数据集上预训练的强VLA基线π0 [7]。为了直接评估预训练的效果，纳入UniDex-VLA（无预训练）。对 UniDex-VLA（无预训练）和 π0 采用 FAAS，并保留 DP 和 DP3 的低维输出。

泛化能力

除了优异的性能外，UniDex-VLA 还展现出强大的空间、物体和手部泛化能力。

空间泛化能力。UniDex-VLA 受益于 3D 感知，点云数据进一步支持通过几何编辑实现简单、自动的数据增强。在“制作咖啡”实验中，分割水壶和滴滤器的点云，并沿桌子的 x/y 轴平移它们，使其扫过工作空间，生成分布外 (ood) 位置。编辑点云后，使用任务和运动规划 (TAMP) [16] 将相应的机器人状态与新场景对齐。DemoGen [59] 为该过程提供一个自动化流程。如图所示，UniDex-VLA 在各种空间配置中都具有良好的泛化能力；借助 DemoGen [59] 的数据增强，它在整个工作空间中达到了非常高的成功率。

物体泛化能力。如图所示，将黑色水壶替换为一个更小的紫色水壶，该水壶在颜色、尺寸和功能部件（把手和壶嘴）上均有所不同。UniDex-VLA 在该未见过的物体上仍保持良好的性能，表明其具有泛化的工具理解能力，这对于稳健且通用的工具使用至关重要。

手部泛化（技能迁移）。通过将训练用于在 Inspire 手（6 个活动自由度）上制作咖啡的策略，并将其零样本部署到 Wuji（20 个活动自由度）和 Oymotion（6 个活动自由度，运动学特征不同）上来评估跨手迁移能力。如图所示，UniDex-VLA 在 Oymotion 上取得 60% 的成功率，在 Wuji 上取得 40% 的成功率，且无需任何微调，而基线模型的成功率接近于零。这些结果表明，在不同的灵巧手上进行预训练——结合 FAAS——确实能够实现零样本跨手技能迁移。

用于人机数据协同训练的 UniDex-Cap

UniDex-Cap，这是一种实用的数据采集装置，可记录同步的 RGB-D 数据流和手/头部姿态。该系统结合用于手和头部姿态估计的 Apple Vision Pro、用于高质量 RGB-D 采集的 Intel RealSense L515 以及一个定制的 3D 打印支架，该支架通过固定的刚性变换将两个传感器物理连接起来。该变换经过校准，以确保 RGB-D 数据流和手/头部姿态在时间上同步，并以共享坐标系表示。随后应用人机转换流程将采集到的人体数据转换为机器人可执行的轨迹。此外，还执行视点变换，以对齐人和机器人的视角，并对人体运动进行降采样，以匹配典型的远程操作速度。

利用 UniDex-Cap，收集人类演示数据，对其进行转换，并与真实机器人数据在“制作咖啡”任务上进行联合训练，以定量探究人类演示在微调阶段的影响。

观察：(i) 重定向的人类数据有所帮助，但机器人数据必不可少。虽然对于固定的 r 值，增加 h 值在评估的范围内持续提高平均任务进度，但如果没有机器人数据，成功率始终接近于零。(ii) 人机交换率约为 2:1。“高性能”区域（与 r = 50 时仅使用机器人的绿色区域相当）的边界斜率约为 2，这表明大约两个人类演示可以替代一个机器人演示。(iii) 成本效益。在制作咖啡任务中，人类演示的收集速度比真实机器人演示快约 5.2 倍；考虑到约 2:1 的交换率，与人类演示进行共同训练可以大幅降低数据收集成本。