Ψ0 人形全身 VLA：基于人类视频预训练与 MM-DiT 后训练策略

Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

1.1 引言与相关工作

大规模遥操作数据对于人形机器人行走 - 操作任务来说，成本极高且采集极具挑战性。人类第一视角视频提供了一种可扩展的替代方案，无需远程操控即可捕获大量自然运动模式。

然而，人类与机器人在形体结构上的巨大差异，使得直接将人类视频中的知识迁移到仿人机器人控制上并非易事。早期工作试图通过统一的人类中心状态 - 动作表示进行学习，但由于动作频率、动力学及自由度的本质差异，单一整体策略建模两种截然不同的动作分布是次优的。

为此，来自南加州大学 PSI Lab、NVIDIA 及 WorldEngine 的研究者提出了 Ψ0，一种新颖的多阶段训练范式：

预训练：在大规模第一视角人类视频（约 800 小时）和少量真实机器人交互数据（30 小时）上对 VLM 主干进行自回归预训练，获得具有良好泛化能力的视觉 - 动作表征。
后训练：在高质量的人形机器人数据上后训练一个基于流（flow-based）的动作专家，用于学习精确的机器人关节控制。

这种理念避免了盲目堆砌数据，同时开源了人形全身 VLA，有望促进更多相关研究。

1.1.1 模型架构

Ψ0 采用三重系统架构的基础模型：

System-0：基于 RL 的跟踪策略（如 AMO），接收 8 自由度下肢动作输入，映射为 15 自由度下肢关节角。
System-1：多模态扩散 Transformer（MM-DiT）动作专家。灵感来自 Stable Diffusion 3，包含约 5 亿参数。相比朴素 DiT，能更高效融合动作和视觉 - 语言特征。
System-2：视觉 - 语言骨干网络。使用 Qwen3-VL-2B-Instruct 作为基础。

高层策略由 System-1 和 System-2 组成，最终在 VLM 隐藏特征条件下预测未来全身动作片段。

1.1.2 训练方案

整体训练过程包含三个阶段：

第一阶段：人类第一视角视频预训练 利用 EgoDex（约 829 小时）和 HumanoidEveryday（31 小时）数据集。关键见解是预训练目标仅需预测单个下一步动作，而非多步序列，以降低计算开销。作者使用 FAST tokenizer 将连续动作离散化，VLM 以自回归方式预测下一个动作 token。
- 超参数：DeepSpeed 训练，Qwen3-VL 变体，64 块 A100 GPU，全局 batchsize 1024，训练约 10 天。
- Tokenizer：重新训练 FAST tokenizer，平均 L1 重建损失 0.005，将 48 个 token 压缩至可变长度（约 20 个）。
第二阶段：跨任务真实人形数据后训练 冻结 VLM 参数，从头训练动作专家。使用 Humanoid Everyday 数据集，对齐不同具身形式（G1 与 H1）的关节索引。动作向量填充至 36 自由度，状态向量填充至 32 自由度。
- 超参数：恒定学习率 1e-4，全局批大小 2048，32 张 A100 GPU，耗时约 30 小时。
第三阶段：域内遥操作数据微调 针对特定任务进行端到端微调，快速适应长时域、高灵巧性任务。每个任务由 80 个远程操作 episode 组成，训练 40k 步。

1.1.3 实时动作分块 (RTC)

人形机器人需要平滑且快速反应的控制。Ψ0 模型包含超过 25 亿参数，单次前向传播约需 160ms。为解决推理延迟导致的停顿，作者采用了训练阶段的实时分块（Training-time RTC）。

原理：随机移除前 d 个 token 的扩散噪声并在损失计算中掩蔽，模拟推理延迟。模型被训练为在前面的干净动作 token 条件下预测后续动作。
系统实现：客户端负责观测收集和动作执行，服务器端负责控制与推理。控制循环 30Hz，推理循环异步运行。当当前动作块执行进度超过阈值时触发新块生成，确保无缝衔接。

Ψ0 人形全身 VLA：基于人类视频预训练与 MM-DiT 后训练策略

Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

1.1 引言与相关工作

1.1.1 模型架构

1.1.2 训练方案

1.1.3 实时动作分块 (RTC)

更多推荐文章

相关免费在线工具

1.1.4 远程操作定制

1.2 实验

1.2.1 实现细节

1.2.2 真实环境评估

1.2.3 消融研究

更多推荐文章

相关免费在线工具

Ψ0 人形全身 VLA：基于人类视频预训练与 MM-DiT 后训练策略

Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

1.1 引言与相关工作

1.1.1 模型架构

1.1.2 训练方案

1.1.3 实时动作分块 (RTC)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.1.4 远程操作定制

1.2 实验

1.2.1 实现细节

1.2.2 真实环境评估

1.2.3 消融研究

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具