Ψ0 人形全身 VLA:基于人类视频预训练与 MM-DiT 后训练方案
引言
大规模遥操作数据对于人形机器人行走 - 操作任务来说,在成本上极其高昂且在采集上极具挑战性。人类第一视角视频提供了一种可扩展的替代方案,因为它无需进行机器人远程操控就能捕获大量自然的运动模式。
然而,由于人类与机器人在形体结构上的巨大差异,直接将人类视频中的知识迁移到仿人机器人控制上并非易事。早期工作试图通过统一的人类中心状态 - 动作表示进行学习,但由于两者在动作频率、动力学及自由度上的本质差异,单一策略建模两种截然不同的动作分布是次优的。
为此,来自 USC Physical Superintelligence (PSI) Lab、NVIDIA 和 WorldEngine 的研究者提出了 Ψ0,一种新颖的多阶段训练范式。该工作在理念创新上值得肯定:以规模不大的'人类第一视角数据和真实机器人交互数据'预训练 VLM,再后训练微调,避免一味堆数据;同时,开源的人形全身 VLA 相对稀少,Ψ0 有望启发更多相关工作。
模型架构与训练范式
1. 基础模型架构
Ψ0 是一个采用三重系统架构的基础模型,遵循以往工作:
- System-0:一个基于 RL 的跟踪策略(如 AMO),接收 8 自由度的下肢动作输入,映射为 15 自由度的下肢关节角。
- System-2:视觉 - 语言骨干网络,使用 Qwen3-VL-2B-Instruct 作为基础。
- System-1:多模态扩散 Transformer(MM-DiT)动作专家,约 5 亿参数。它利用基于流的 MM-DiT,相比朴素 DiT 能更高效地融合动作和视觉 - 语言特征。
高层策略由 System-1 和 System-2 组成。最终在以 VLM 骨干网络的隐藏特征为条件的情况下,动作专家预测未来的全身动作片段。
2. 训练方案
整体训练过程包含三个阶段:
第一阶段:人类视频预训练
训练类人基础模型面临显著的数据稀缺瓶颈。作者利用 EgoDex(约 829 小时人类第一人称视频)和 HumanoidEveryday(31 小时类人数据)进行预训练。
关键见解是,预训练 VLM 骨干网络的目标是学习语言指令的任务语义以及用于下游真实机器人操作的视觉表征。因此,VLM 仅预测单个下一步动作,而不是长序列,这大大减少了计算开销。作者使用 FAST tokenizer 将连续动作离散化,训练得到的分词器实现了平均 L1 重建损失为 0.005。
第二阶段:跨任务后训练
在训练完 VLM 骨干网络后,冻结其参数并从头开始训练动作专家。作者使用 Humanoid Everyday(HE)数据集在联合空间中对动作专家进行后训练。由于 HE 包含不同具身形式(G1 和 H1),作者重新排序默认关节索引以对齐动作表示。
在后训练过程中,VLM 主干网络被冻结,仅优化动作专家。全局批大小设为 2048,训练进行 30k 步。
第三阶段:域内微调
在完成预训练和后训练的基础上,模型可以使用少量域内数据进行端到端的进一步微调,从而快速学习长时域、高灵巧性的行走 - 操作一体化任务。大多数任务在 30Hz 频率下的步数超过 2,000 步。每个真实世界任务由 80 个远程操作数据的 episode 组成,针对每个任务训练 40k 步。
实时动作分块策略 (RTC)
人形机器人在控制过程中需要平滑且具备快速反应的能力。现有的 VLA 通常包含数十亿个参数,推理延迟会引入'停下来思考'的行为。
为了在存在这种延迟的情况下仍然实现平滑的策略展开,作者采用了训练阶段的实时分块(RTC)。每次动作预测都以先前已经执行的动作块为条件,并输出一个一致的未来动作块。为了在训练过程中真实地模拟推理延迟,作者随机从前面 token 中移除扩散噪声,并在损失计算中将其掩蔽。
系统由客户端(负责观测收集和动作执行)和服务器端(负责控制与推理)组成。控制循环以 30Hz 的频率运行,推理循环异步运行。当当前动作块的执行进度超过某一阈值时,推理循环被触发以获得下一个动作块,确保由于推理延迟不会在相邻动作块之间产生系统中断。
远程操作定制与数据采集
高效地学习长时域的步行–操作任务,很大程度上取决于同分布数据的质量。作者提出了一种定制的远程操作框架,将上半身姿态跟踪、灵巧操作和运动控制指令明确解耦。
- 灵巧操作:使用 MANUS 手套获取精确的手指跟踪数据,结合 PICO 手腕追踪器,直接获得可靠的手部和手腕末端执行器位姿。
- 运动能力:通过高层指令控制行走。PICO 腰部追踪器估计操作者的平移速度,脚部追踪器提供偏航指令。
- 全身控制:使用 PICO 头显配合腕部追踪器,求解多目标逆运动学问题,生成人形手臂的关节位置,同时得到躯干姿态等中间变量,输入到低层行走强化学习策略中。
实验与评估
1. 实验设置
在所有真实环境实验中,作者使用 Unitree G1 仿人平台(29 个自由度),配备 Dex3-1 灵巧手。视觉观测由 Intel RealSense D435i 摄像头获取。
2. 基线对比
作者在八个真实世界的长时域操作任务上评估 Ψ0,涵盖抓取与放置、推动、旋转水龙等挑战。对比基线包括 π0.5、GR00T N1.6、InternVLA-M1、H-RDT、EgoVLA、扩散策略(DP)和 ACT。
3. 结果分析
如图表所示,Ψ0 模型在所有基线方法之上取得了大幅领先。在全部八个长时域灵巧行走 - 操作任务中,模型的总体平均成功率至少比第二佳基线 GR00T-N1.6 高出 40%。
消融研究表明:
- 实时分块行为:训练阶段的 RTC 能有效减轻物理碰撞,提升策略 rollout 的吞吐量。
- MM-DiT vs Naive DiT:MM-DiT 的双调制设计及联合注意力机制始终优于朴素 DiT 变体。
- 预训练与后训练的作用:仅在人类数据上预训练 VLM 主干性能较差,而在 EgoDex 上进行任务空间下一步动作预测的预训练之后,模型性能显著提升。高质量机器人数据上的后训练进一步提升了整体性能。
总结
Ψ0 证明了利用大规模人类自视角视频数据,并辅以少量真实机器人交互数据,可以有效训练人形 VLA。通过独特的训练配方,避免了危险且困难的联合训练,同时实现了鲁棒的全身控制。这一成果有望促进更多人形全身 VLA 的发展。


