Ψ0:面向通用人形移动操作的基础模型
大规模遥操作数据对于人形机器人行走 - 操作任务来说成本极高且采集困难。人类第一视角视频提供了一种可扩展的替代方案,能捕获大量自然运动模式,但直接迁移到仿人机器人控制存在形体结构差异的挑战。
来自南加州大学 PSI Lab、NVIDIA 和 WorldEngine 的研究者提出了 Ψ0,一种新颖的多阶段训练范式。其核心思路是避免一味堆数据,而是利用规模不大的'人类第一视角数据和真实机器人交互数据'预训练 VLM,再后训练微调。这种理念在开源的人形全身 VLA 中相对稀缺,有望促进更多相关研究。
1. 模型架构与系统组成
Ψ0 采用三重系统架构,遵循以往基础模型的设计思路。
- System-0(下肢跟踪策略):接收 8 自由度的下肢动作指令(如躯干姿态、底座高度、速度等),通过现成的强化学习控制器 AMO 映射为 15 自由度的下肢关节角。
- System-2(视觉 - 语言骨干):使用 Qwen3-VL-2B-Instruct 作为主干网络,负责理解任务语义和学习视觉表征。
- System-1(动作专家):一个多模态扩散 Transformer(MM-DiT),约 5 亿参数。它以 VLM 的隐藏特征为条件,预测未来的全身动作片段。
最终输出包含双手、手臂、躯干及下肢控制的 43 自由度动作,实现全身协调。
2. 训练方案:预训练、后训练与微调
整体训练过程分为三个阶段,旨在从人类视频和真实机器人数据中学习技能。
2.1 第一阶段:人类视频预训练
针对类人基础模型面临的数据稀缺瓶颈,作者利用 EgoDex(约 829 小时人类第一人称视频)和 HumanoidEveryday(31 小时类人数据)进行预训练。关键见解在于,预训练 VLM 的目标是学习任务语义和视觉表征,因此只需预测单个下一步动作 token,而非长序列,这大幅降低了计算开销。
作者使用 FAST tokenizer 将连续动作离散化,并在 50 万条动作数据上重新训练分词器,实现了更低的 L1 重建损失。VLM 以自回归方式训练来预测下一个动作 token,对人手和机器人末端执行器使用统一的动作表示(48 自由度),使联合训练成为可能。
2.2 第二阶段:跨任务后训练
冻结 VLM 主干,从头训练基于流的动作专家。使用 Humanoid Everyday 数据集在联合空间中对动作专家进行后训练。由于不同机器人形态(如 G1 与 H1)的手指关节不同,作者通过重新排序关节索引对齐动作表示,并将动作向量填充至 36 自由度以兼容未来微调。
此阶段采用流匹配训练目标,输入图像下采样至 320×240,在 32 张 A100 GPU 上耗时约 30 小时。
2.3 第三阶段:域内微调
在完成预训练和后训练基础上,使用少量域内遥操作数据进行端到端微调。每个真实世界任务由 80 个远程操作数据的 episode 组成,针对每个任务训练 40k 步。此时仅微调动作专家,保持 VLM 骨干冻结,从而快速习得长时域、高灵巧性的行走 - 操作一体化技能。
3. 实时动作分块(RTC)
人形机器人在长时域任务中需要平滑且快速反应的能力。Ψ0 模型包含超过 25 亿参数,单次前向传播约需 160ms,为避免推理延迟导致的'停顿',作者采用了训练阶段的实时分块(Training-time RTC)。
在训练过程中,随机移除前 d 个 token 的扩散噪声并掩蔽,模拟推理延迟。模型被训练为在前面的干净动作 token 条件下预测后续动作,从而生成平滑连续的剩余 token。部署时,尚未被执行的动作步被视为干净 token,用于生成下一个动作分块,确保相邻动作块之间无缝衔接。
4. 远程操作定制与数据采集
高效学习长时域任务取决于同分布数据的质量。作者提出了一种定制的远程操作框架,将上半身姿态跟踪、灵巧操作和运动控制指令解耦,支持单操作员全身控制。
- 灵巧操作:使用 MANUS 手套采集精细手指运动,结合 PICO 手腕追踪器获取可靠的手部位姿,避免视觉遮挡问题。
- 运动能力:不直接将 SMPL 运动重定向,而是通过高层指令(平移速度、偏航)控制行走,由腰部追踪器估计速度,脚部追踪器提供朝向信号,经 RL 策略生成下半身状态。
- 全身控制:PICO 头显配合腕部追踪器,通过多目标逆运动学求解器将人类上半身运动映射到机器人手臂,下半身则由低层行走 RL 策略生成。
5. 实验与评估
在 Unitree G1 平台上,使用 Intel RealSense D435i 摄像头进行视觉观测。作者在八个真实世界的长时域操作任务上评估 Ψ0,涵盖抓取放置、推动擦拭以及旋转水龙头等高难度任务。


