引言
大规模遥操作数据对于人形机器人行走 - 操作任务来说成本极高且采集困难。人类第一视角视频提供了一种可扩展的替代方案,能捕获大量自然运动模式,但直接迁移知识到仿人机器人控制并非易事。
早期工作试图通过统一的人类中心状态 - 动作表示从人类视频中学习,但由于人类与机器人在动作频率、动力学及自由度上的本质差异,单一策略建模两种截然不同的动作分布往往次优。因此,如何有效从人类第一视角视频中提炼运动先验以支持人形机器人鲁棒全身控制,成为关键问题。
来自南加州大学 PSI Lab、NVIDIA 及 WorldEngine 的研究者提出了 Ψ0,一种新颖的多阶段训练范式。该工作在理念上避免了单纯堆砌数据,而是利用规模不大的'人类第一视角数据和真实机器人交互数据'进行预训练与后训练,有望促进更多人形全身 VLA 的发展。
1.1 相关工作
在全身灵巧操作方面,当前类人机器人虽能模仿跑步、跳舞甚至空翻,但在实现高水平的'行走 - 操作'(loco-manipulation)仍面临挑战。LangWBC 和 LeVERB 提出了基于语言条件的全身控制,但主要聚焦行走与导航,对灵巧操作关注有限。AMO 和 TWIST2 通过 VR 遥操作实现了高效的数据采集框架,但更侧重于低层控制。
灵巧操作因高自由度控制和频繁自遮挡长期面临挑战。Being-H0 通过收集手 - 物体交互视频微调 VLM,但仅限于单臂桌面操作。作者提出构建用于人形整体身体灵巧操作的统一 VLA 模型。
在人形 VLA 领域,π0 系列和 GR00T 展现了卓越泛化能力,但作者发现高质量数据比海量跨载体数据更为关键。本工作探索了一种新范式:利用大规模人类自视角视频数据,并辅以少量真实机器人交互数据。
1.2 Ψ0 基础模型
Ψ0 是一个用于类人灵巧运动操作的 VLA 模型。给定自然语言任务指令 $\ell$ 和当前观测 $\mathbf{o}{t}$,模型预测全身动作片段 $\mathbf{a}{t: t+H}$。动作被定义为包含双手、手臂、躯干、底座高度及速度等在内的 36 维向量。观测包含头部相机图像和全身本体感觉状态。
1.2.1 模型架构
Ψ0 采用三重系统架构:
- System-0:基于 RL 的跟踪策略(如 AMO),将高层下肢动作映射为 15 自由度的下肢关节角。
- System-2:视觉 - 语言骨干网络,使用 Qwen3-VL-2B-Instruct。
- System-1:多模态扩散 Transformer(MM-DiT)动作专家,约 5 亿参数。相比朴素 DiT,它能更高效地融合动作和视觉 - 语言特征,在 VLM 隐藏特征条件下预测未来全身动作片段。
1.2.2 训练方案
整体训练过程包含三个阶段:
-
预训练:在大规模人类第一视角视频上预训练 VLM 主干。利用 EgoDex(约 829 小时)和 HumanoidEveryday(31 小时)数据。为降低计算成本,VLM 仅预测单个下一步动作 token。使用 FAST tokenizer 将连续动作离散化,平均 L1 重建损失为 0.005。
- 超参数:DeepSpeed 训练,语言骨干学习率 1e-4,视觉塔 1e-5。图像缩放至 360×240,64 块 A100 GPU,全局 batchsize 1024,训练约 10 天。
-
后训练:冻结 VLM 参数,从头训练动作专家。使用 Humanoid Everyday 数据集对齐不同具身形式的动作表示(28 DoF)。流匹配训练目标结合均匀采样的流动时间步。输入图像下采样至 320×240,32 张 A100 GPU,耗时约 30 小时。
-
微调:使用少量域内遥操作数据对动作专家进行端到端微调。每个任务由 80 个远程操作 episode 组成,训练 40k 步,初始学习率 1e-4。
1.2.3 实时动作分块 (RTC)
针对大模型推理延迟导致的'停止 - 思考 - 执行'抖动问题,Ψ0 采用了训练阶段的实时分块(Training-time RTC)。通过在训练时随机遮蔽前缀动作 token 并模拟推理延迟,使模型学会在已知部分动作条件下生成后续平滑动作。部署时,客户端与控制循环协调,确保动作块切换无缝衔接。
1.2.4 远程操作定制
为解决现有遥操作系统缺乏稳定性或表达能力不足的问题,作者提出定制框架:
- 灵巧操作:使用 MANUS 手套采集手指数据,结合 PICO 腕部追踪器,避免视觉遮挡。
- 运动能力:不直接重定向全身 SMPL,而是通过腰部/脚部追踪器推断平移速度和偏航指令,输入 RL 策略控制下肢。


