Ψ0 人形全身 VLA：基于人类视频预训练与 MM-DiT 后训练方案

Ψ0 是一种面向人形机器人全身行走操作的基础模型。它采用两阶段训练策略：先在大规模人类第一视角视频上预训练视觉语言模型，学习通用运动先验；随后在真实机器人数据上后训练基于流的动作专家，实现精确关节控制。结合 AMO 强化学习策略进行下肢跟踪，并通过训练时实时分块解决推理延迟问题。实验表明，该模型在长时域灵巧任务上的成功率显著优于现有开源基线，证明了高质量小样本机器人数据结合大规模人类视频的有效性。

宁静发布于 2026/4/10更新于 2026/7/2330 浏览

Ψ0 人形全身 VLA：基于人类视频预训练与 MM-DiT 后训练方案

引言

大规模遥操作数据对于人形机器人行走 - 操作任务来说，在成本上极其高昂且在采集上极具挑战性。人类第一视角视频提供了一种可扩展的替代方案，因为它无需进行机器人远程操控就能捕获大量自然的运动模式。

然而，由于人类与机器人在形体结构上的巨大差异，直接将人类视频中的知识迁移到仿人机器人控制上并非易事。早期工作试图通过统一的人类中心状态 - 动作表示进行学习，但由于两者在动作频率、动力学及自由度上的本质差异，单一策略建模两种截然不同的动作分布是次优的。

为此，来自 USC Physical Superintelligence (PSI) Lab、NVIDIA 和 WorldEngine 的研究者提出了 Ψ0，一种新颖的多阶段训练范式。该工作在理念创新上值得肯定：以规模不大的'人类第一视角数据和真实机器人交互数据'预训练 VLM，再后训练微调，避免一味堆数据；同时，开源的人形全身 VLA 相对稀少，Ψ0 有望启发更多相关工作。

模型架构与训练范式

1. 基础模型架构

Ψ0 是一个采用三重系统架构的基础模型，遵循以往工作：

System-0：一个基于 RL 的跟踪策略（如 AMO），接收 8 自由度的下肢动作输入，映射为 15 自由度的下肢关节角。
System-2：视觉 - 语言骨干网络，使用 Qwen3-VL-2B-Instruct 作为基础。
System-1：多模态扩散 Transformer（MM-DiT）动作专家，约 5 亿参数。它利用基于流的 MM-DiT，相比朴素 DiT 能更高效地融合动作和视觉 - 语言特征。

高层策略由 System-1 和 System-2 组成。最终在以 VLM 骨干网络的隐藏特征为条件的情况下，动作专家预测未来的全身动作片段。

2. 训练方案

整体训练过程包含三个阶段：

第一阶段：人类视频预训练

训练类人基础模型面临显著的数据稀缺瓶颈。作者利用 EgoDex（约 829 小时人类第一人称视频）和 HumanoidEveryday（31 小时类人数据）进行预训练。

关键见解是，预训练 VLM 骨干网络的目标是学习语言指令的任务语义以及用于下游真实机器人操作的视觉表征。因此，VLM 仅预测单个下一步动作，而不是长序列，这大大减少了计算开销。作者使用 FAST tokenizer 将连续动作离散化，训练得到的分词器实现了平均 L1 重建损失为 0.005。

第二阶段：跨任务后训练

在训练完 VLM 骨干网络后，冻结其参数并从头开始训练动作专家。作者使用 Humanoid Everyday（HE）数据集在联合空间中对动作专家进行后训练。由于 HE 包含不同具身形式（G1 和 H1），作者重新排序默认关节索引以对齐动作表示。

在后训练过程中，VLM 主干网络被冻结，仅优化动作专家。全局批大小设为 2048，训练进行 30k 步。

第三阶段：域内微调

在完成预训练和后训练的基础上，模型可以使用少量域内数据进行端到端的进一步微调，从而快速学习长时域、高灵巧性的行走 - 操作一体化任务。大多数任务在 30Hz 频率下的步数超过 2,000 步。每个真实世界任务由 80 个远程操作数据的 episode 组成，针对每个任务训练 40k 步。

实时动作分块策略 (RTC)

人形机器人在控制过程中需要平滑且具备快速反应的能力。现有的 VLA 通常包含数十亿个参数，推理延迟会引入'停下来思考'的行为。

为了在存在这种延迟的情况下仍然实现平滑的策略展开，作者采用了训练阶段的实时分块（RTC）。每次动作预测都以先前已经执行的动作块为条件，并输出一个一致的未来动作块。为了在训练过程中真实地模拟推理延迟，作者随机从前面 token 中移除扩散噪声，并在损失计算中将其掩蔽。

系统由客户端（负责观测收集和动作执行）和服务器端（负责控制与推理）组成。控制循环以 30Hz 的频率运行，推理循环异步运行。当当前动作块的执行进度超过某一阈值时，推理循环被触发以获得下一个动作块，确保由于推理延迟不会在相邻动作块之间产生系统中断。

远程操作定制与数据采集

高效地学习长时域的步行–操作任务，很大程度上取决于同分布数据的质量。作者提出了一种定制的远程操作框架，将上半身姿态跟踪、灵巧操作和运动控制指令明确解耦。

灵巧操作：使用 MANUS 手套获取精确的手指跟踪数据，结合 PICO 手腕追踪器，直接获得可靠的手部和手腕末端执行器位姿。
运动能力：通过高层指令控制行走。PICO 腰部追踪器估计操作者的平移速度，脚部追踪器提供偏航指令。

Ψ0 人形全身 VLA：基于人类视频预训练与 MM-DiT 后训练方案

Ψ0 人形全身 VLA：基于人类视频预训练与 MM-DiT 后训练方案