Ψ0 人形全身 VLA 模型解析
南加州大学 USC Physical Superintelligence (PSI) Lab、NVIDIA 与 WorldEngine 联合发布了 Ψ0,这是一个面向人形机器人全身行走 - 操作(loco-manipulation)的基础模型。其核心思路在于利用大规模人类第一视角视频数据预训练视觉语言主干,再结合少量真实机器人交互数据后训练动作专家,最后通过强化学习策略实现下肢跟踪。
1. 核心训练范式
该工作在理念上避免了单纯堆砌数据的做法,而是分阶段优化:
- VLM 主干预训练:在约 800 小时的人类自视角视频和 30 小时的真实机器人数据上,对 VLM 进行自回归预训练,获得具有良好泛化能力的视觉 - 动作表征。
- 动作专家后训练:在高质量的人形机器人数据上,后训练一个基于流(flow-based)的动作专家(MM-DiT),用于学习精确的机器人关节控制。
这种分阶段策略解决了人类与机器人在形体结构上的巨大差异问题。早期工作尝试统一人类中心的状态 - 动作表示,但由于两者在动作频率、动力学及自由度上的本质差异,单一策略难以兼顾。Ψ0 则先通过人类视频学习任务层面的运动先验,再通过真实机器人数据对齐到具体的关节空间。
2. 模型架构与系统组成
Ψ0 采用三重系统架构,遵循以往基础模型的设计思路:
- System-0(RL 跟踪策略):负责下肢控制。接收高层指令(如躯干姿态、速度等),使用现成的控制器 AMO 将其映射为 15 自由度的下肢关节角。
- System-2(视觉 - 语言骨干):作为大脑,使用 Qwen3-VL-2B-Instruct 作为基础模型,处理自然语言任务指令和当前观测。
- System-1(动作专家):多模态扩散 Transformer(MM-DiT),约 5 亿参数。它接收 VLM 的隐藏特征作为条件,预测未来的全身动作片段。
输入输出定义:
给定自然语言任务指令 $\ell$ 和当前观测 $\mathbf{o}{t}$,模型预测全身动作片段 $\mathbf{a}{t: t+H}$。动作向量 $\mathbf{a} \in \mathbb{R}^{36}$ 包含双手关节、手臂关节、躯干横滚俯仰偏航、底座高度、水平线速度及目标偏航转角等。
观测 $\mathbf{o}{t}$ 包含头部相机图像 $\mathbf{I}{t}$ 和全身本体感觉状态 $\mathbf{q}_{t}$。
3. 训练方案详解
整体训练过程分为三个阶段:
3.1 第一阶段:人类视频预训练
针对类人基础模型面临的数据稀缺瓶颈,作者利用 EgoDex(约 829 小时人类第一人称视频)和 HumanoidEveryday(31 小时类人数据)进行预训练。
关键设计点:
- 单步动作预测:为了降低计算成本,VLM 仅预测单个下一步动作 token,而非长序列。这足以让模型学习任务语义和视觉表征。
- FAST Tokenizer:使用 FAST 将连续动作离散化为离散 token。作者重新训练了 tokenizer,在 50 万条动作数据上实现了平均 L1 重建损失 0.005,将每个动作序列压缩至约 20 个 token。
- 统一动作表示:任务空间中 48 自由度动作定义为左右手位姿与指尖位置的组合,使人类数据和机器人数据能够联合训练。
3.2 第二阶段:跨任务后训练
冻结 VLM 参数,从头训练动作专家。
- 数据对齐:使用 Humanoid Everyday 数据集,针对不同具身形式(G1 与 H1)的手指关节形态差异,重新排序默认关节索引以对齐动作表示。
- 填充机制:为支持未来微调,将动作向量和状态向量分别填充至 36 自由度和 32 自由度,缺失的下肢控制信号维度被填充。
- 超参数:VLM 主干冻结,动作专家学习率设为 $1 \times 10^{-4}$,全局批大小 2048,在 32 张 A100 GPU 上训练约 30 小时。
3.3 第三阶段:域内微调
在已完成预训练和后训练的基础上,使用少量域内遥操作数据进行端到端微调。


