Ψ0 人形全身 VLA：基于人类视频预训练与流匹配动作专家

Ψ0 是南加州大学与 NVIDIA 等人提出的人形全身 VLA 模型。其核心在于利用大规模人类第一视角视频预训练 VLM 主干，再通过真实机器人数据后训练流匹配动作专家。该方案避免了异构数据混合训练的次优解，结合实时分块技术解决推理延迟问题。实验表明其在长时域行走 - 操作任务上显著优于 GR00T 等基线，为具身智能提供了新范式。

链路追踪发布于 2026/4/10更新于 2026/7/2141 浏览

Ψ0：面向通用人形移动操作的基础模型

大规模遥操作数据对于人形机器人行走 - 操作任务来说成本极高且采集困难。人类第一视角视频提供了一种可扩展的替代方案，能捕获大量自然运动模式，但直接迁移到仿人机器人控制存在形体结构差异的挑战。

来自南加州大学 PSI Lab、NVIDIA 和 WorldEngine 的研究者提出了 Ψ0，一种新颖的多阶段训练范式。其核心思路是避免一味堆数据，而是利用规模不大的'人类第一视角数据和真实机器人交互数据'预训练 VLM，再后训练微调。这种理念在开源的人形全身 VLA 中相对稀缺，有望促进更多相关研究。

1. 模型架构与系统组成

Ψ0 采用三重系统架构，遵循以往基础模型的设计思路。

System-0（下肢跟踪策略）：接收 8 自由度的下肢动作指令（如躯干姿态、底座高度、速度等），通过现成的强化学习控制器 AMO 映射为 15 自由度的下肢关节角。
System-2（视觉 - 语言骨干）：使用 Qwen3-VL-2B-Instruct 作为主干网络，负责理解任务语义和学习视觉表征。
System-1（动作专家）：一个多模态扩散 Transformer（MM-DiT），约 5 亿参数。它以 VLM 的隐藏特征为条件，预测未来的全身动作片段。

最终输出包含双手、手臂、躯干及下肢控制的 43 自由度动作，实现全身协调。

2. 训练方案：预训练、后训练与微调

整体训练过程分为三个阶段，旨在从人类视频和真实机器人数据中学习技能。

2.1 第一阶段：人类视频预训练

针对类人基础模型面临的数据稀缺瓶颈，作者利用 EgoDex（约 829 小时人类第一人称视频）和 HumanoidEveryday（31 小时类人数据）进行预训练。关键见解在于，预训练 VLM 的目标是学习任务语义和视觉表征，因此只需预测单个下一步动作 token，而非长序列，这大幅降低了计算开销。

作者使用 FAST tokenizer 将连续动作离散化，并在 50 万条动作数据上重新训练分词器，实现了更低的 L1 重建损失。VLM 以自回归方式训练来预测下一个动作 token，对人手和机器人末端执行器使用统一的动作表示（48 自由度），使联合训练成为可能。

2.2 第二阶段：跨任务后训练

冻结 VLM 主干，从头训练基于流的动作专家。使用 Humanoid Everyday 数据集在联合空间中对动作专家进行后训练。由于不同机器人形态（如 G1 与 H1）的手指关节不同，作者通过重新排序关节索引对齐动作表示，并将动作向量填充至 36 自由度以兼容未来微调。

此阶段采用流匹配训练目标，输入图像下采样至 320×240，在 32 张 A100 GPU 上耗时约 30 小时。

2.3 第三阶段：域内微调

在完成预训练和后训练基础上，使用少量域内遥操作数据进行端到端微调。每个真实世界任务由 80 个远程操作数据的 episode 组成，针对每个任务训练 40k 步。此时仅微调动作专家，保持 VLM 骨干冻结，从而快速习得长时域、高灵巧性的行走 - 操作一体化技能。

3. 实时动作分块（RTC）

人形机器人在长时域任务中需要平滑且快速反应的能力。Ψ0 模型包含超过 25 亿参数，单次前向传播约需 160ms，为避免推理延迟导致的'停顿'，作者采用了训练阶段的实时分块（Training-time RTC）。

在训练过程中，随机移除前 d 个 token 的扩散噪声并掩蔽，模拟推理延迟。模型被训练为在前面的干净动作 token 条件下预测后续动作，从而生成平滑连续的剩余 token。部署时，尚未被执行的动作步被视为干净 token，用于生成下一个动作分块，确保相邻动作块之间无缝衔接。

4. 远程操作定制与数据采集

高效学习长时域任务取决于同分布数据的质量。作者提出了一种定制的远程操作框架，将上半身姿态跟踪、灵巧操作和运动控制指令解耦，支持单操作员全身控制。

灵巧操作：使用 MANUS 手套采集精细手指运动，结合 PICO 手腕追踪器获取可靠的手部位姿，避免视觉遮挡问题。
运动能力：不直接将 SMPL 运动重定向，而是通过高层指令（平移速度、偏航）控制行走，由腰部追踪器估计速度，脚部追踪器提供朝向信号，经 RL 策略生成下半身状态。
全身控制：PICO 头显配合腕部追踪器，通过多目标逆运动学求解器将人类上半身运动映射到机器人手臂，下半身则由低层行走 RL 策略生成。

5. 实验与评估

在 Unitree G1 平台上，使用 Intel RealSense D435i 摄像头进行视觉观测。作者在八个真实世界的长时域操作任务上评估 Ψ0，涵盖抓取放置、推动擦拭以及旋转水龙头等高难度任务。

Ψ0 人形全身 VLA：基于人类视频预训练与流匹配动作专家

Ψ0：面向通用人形移动操作的基础模型

1. 模型架构与系统组成

2. 训练方案：预训练、后训练与微调

2.1 第一阶段：人类视频预训练

2.2 第二阶段：跨任务后训练

2.3 第三阶段：域内微调

3. 实时动作分块（RTC）

4. 远程操作定制与数据采集

5. 实验与评估

更多推荐文章

相关免费在线工具

5.1 基线对比

5.2 消融研究

更多推荐文章

相关免费在线工具

Ψ0 人形全身 VLA：基于人类视频预训练与流匹配动作专家

Ψ0：面向通用人形移动操作的基础模型

1. 模型架构与系统组成

2. 训练方案：预训练、后训练与微调

2.1 第一阶段：人类视频预训练

2.2 第二阶段：跨任务后训练

2.3 第三阶段：域内微调

3. 实时动作分块（RTC）

4. 远程操作定制与数据采集

5. 实验与评估

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5.1 基线对比

5.2 消融研究

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具