Ψ0:面向通用人形移动操作的基础模型
南加州大学 PSI Lab、NVIDIA 和 WorldEngine 联合提出了Ψ0,一种用于人形机器人全身灵巧操作(Loco-Manipulation)的视觉语言动作(VLA)模型。该工作旨在解决大规模遥操作数据稀缺的问题,通过结合人类第一视角视频与少量真实机器人数据,实现高效的技能学习。
核心思路
传统方法试图混合人类与机器人数据进行端到端训练,但这往往因为两者动作分布的本质差异而效果次优。Ψ0 采用了一种分阶段的训练范式:
- 预训练阶段:在约 800 小时的人类自视角视频和 30 小时的真实机器人交互数据上,对 VLM 主干进行自回归预训练。目标是让模型学习任务层面的运动先验及与下游任务对齐的视觉表征。
- 后训练阶段:利用高质量的人形机器人数据,单独训练一个基于流(Flow-based)的动作专家(MM-DiT)。这一步专注于捕捉特定机器的动力学特性,使其能直接在关节空间预测动作序列。
- 微调阶段:使用少量域内遥操作数据对动作专家进行微调,快速适应新任务。
这种设计避免了单纯堆砌数据,而是强调数据质量与分阶段学习的效率。
模型架构
Ψ0 采用三重系统架构,遵循以往基础模型的设计思路:
- System-0(下肢控制):接收高层策略输出的 8 自由度下肢动作(如躯干姿态、底座高度、速度等),通过现成的强化学习控制器 AMO 映射为 15 自由度的下肢关节角。
- System-1(动作专家):多模态扩散 Transformer(MM-DiT),约 5 亿参数。它接收 VLM 提取的特征作为条件,并行输出未来的全身动作片段。相比朴素 DiT,其双调制设计和联合注意力机制能更有效地融合视觉与语言信息。
- System-2(视觉语言骨干):使用 Qwen3-VL-2B-Instruct 作为基础,负责理解自然语言指令并提取视觉特征。
整体输出包含 43 个自由度的全身动作,涵盖双手、手臂、躯干及下肢状态。
训练细节
预训练策略
针对计算成本,作者并未要求 VLM 预测长序列动作,而是仅预测单步下一个动作 token。为此,团队重新训练了 FAST tokenizer,将连续动作离散化,平均 L1 重建损失降至 0.005,并将每个动作序列压缩至约 20 个 token。数据集主要来自 EgoDex(约 829 小时)和 Humanoid Everyday(31 小时)。
后训练与微调
冻结 VLM 主干,仅优化 MM-DiT 动作专家。后训练使用 Humanoid Everyday 数据集,跨任务学习通用技能;微调则针对具体任务(如抓取、推动),仅需 80 条遥操作轨迹即可收敛。实验显示,这种少量数据微调的方式足以让模型掌握长时程、高灵巧性的技能。
实时动作分块(RTC)
面对数十亿参数的推理延迟,Ψ0 采用了训练阶段的实时分块(Training-time RTC)技术。通过在训练中随机遮蔽部分动作 token 来模拟推理延迟,迫使模型学会基于已执行动作平滑生成后续动作。这有效消除了传统同步推理中的停顿抖动,确保机器人在执行复杂任务时的流畅性。
远程操作定制
为了采集高质量的行走 - 操作数据,团队设计了定制的遥操框架:
- 上半身:使用 PICO 头显配合腕部追踪器,结合 MANUS 手套获取手指精细运动,通过多目标逆运动学求解器映射到机器人手臂。
- 下半身:腰部与脚部追踪器推断平移速度与偏航指令,输入 RL 策略保证行走稳定性。
这种解耦设计允许单人操作员同时完成复杂的全身协调任务,且避免了纯视觉追踪常见的遮挡问题。
实验结果
在八个真实世界长时域任务上的评估表明,Ψ0 在所有开源基线中表现最佳。相比第二名的 GR00T-N1.6,整体成功率提升了至少 40%。消融实验进一步证实了预训练 VLM 的重要性,以及 MM-DiT 结构相对于朴素 DiT 的优势。特别是在处理需要双臂协同或长距离导航的任务时,Ψ0 展现了更强的鲁棒性。
该工作不仅提供了一个高性能的人形 VLA 模型,也为未来如何利用低成本人类视频数据驱动具身智能提供了有价值的参考路径。


