Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
1.1 引言与相关工作
大规模遥操作数据对于人形机器人行走 - 操作任务来说,成本极高且采集极具挑战性。人类第一视角视频提供了一种可扩展的替代方案,无需远程操控即可捕获大量自然运动模式。
然而,人类与机器人在形体结构上的巨大差异,使得直接将人类视频中的知识迁移到仿人机器人控制上并非易事。早期工作试图通过统一的人类中心状态 - 动作表示进行学习,但由于动作频率、动力学及自由度的本质差异,单一整体策略建模两种截然不同的动作分布是次优的。
为此,来自南加州大学 PSI Lab、NVIDIA 及 WorldEngine 的研究者提出了 Ψ0,一种新颖的多阶段训练范式:
- 预训练:在大规模第一视角人类视频(约 800 小时)和少量真实机器人交互数据(30 小时)上对 VLM 主干进行自回归预训练,获得具有良好泛化能力的视觉 - 动作表征。
- 后训练:在高质量的人形机器人数据上后训练一个基于流(flow-based)的动作专家,用于学习精确的机器人关节控制。
这种理念避免了盲目堆砌数据,同时开源了人形全身 VLA,有望促进更多相关研究。
1.1.1 模型架构
Ψ0 采用三重系统架构的基础模型:
- System-0:基于 RL 的跟踪策略(如 AMO),接收 8 自由度下肢动作输入,映射为 15 自由度下肢关节角。
- System-1:多模态扩散 Transformer(MM-DiT)动作专家。灵感来自 Stable Diffusion 3,包含约 5 亿参数。相比朴素 DiT,能更高效融合动作和视觉 - 语言特征。
- System-2:视觉 - 语言骨干网络。使用 Qwen3-VL-2B-Instruct 作为基础。
高层策略由 System-1 和 System-2 组成,最终在 VLM 隐藏特征条件下预测未来全身动作片段。
1.1.2 训练方案
整体训练过程包含三个阶段:
-
第一阶段:人类第一视角视频预训练 利用 EgoDex(约 829 小时)和 HumanoidEveryday(31 小时)数据集。关键见解是预训练目标仅需预测单个下一步动作,而非多步序列,以降低计算开销。作者使用 FAST tokenizer 将连续动作离散化,VLM 以自回归方式预测下一个动作 token。
- 超参数:DeepSpeed 训练,Qwen3-VL 变体,64 块 A100 GPU,全局 batchsize 1024,训练约 10 天。
- Tokenizer:重新训练 FAST tokenizer,平均 L1 重建损失 0.005,将 48 个 token 压缩至可变长度(约 20 个)。
-
第二阶段:跨任务真实人形数据后训练 冻结 VLM 参数,从头训练动作专家。使用 Humanoid Everyday 数据集,对齐不同具身形式(G1 与 H1)的关节索引。动作向量填充至 36 自由度,状态向量填充至 32 自由度。
- 超参数:恒定学习率 1e-4,全局批大小 2048,32 张 A100 GPU,耗时约 30 小时。
-
第三阶段:域内遥操作数据微调 针对特定任务进行端到端微调,快速适应长时域、高灵巧性任务。每个任务由 80 个远程操作 episode 组成,训练 40k 步。
1.1.3 实时动作分块 (RTC)
人形机器人需要平滑且快速反应的控制。Ψ0 模型包含超过 25 亿参数,单次前向传播约需 160ms。为解决推理延迟导致的停顿,作者采用了训练阶段的实时分块(Training-time RTC)。
- 原理:随机移除前 d 个 token 的扩散噪声并在损失计算中掩蔽,模拟推理延迟。模型被训练为在前面的干净动作 token 条件下预测后续动作。
- 系统实现:客户端负责观测收集和动作执行,服务器端负责控制与推理。控制循环 30Hz,推理循环异步运行。当当前动作块执行进度超过阈值时触发新块生成,确保无缝衔接。


