第一部分 Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
1.1 引言与相关工作
1.1.1 引言
如原论文所说,大规模遥操作数据,对于人形机器人行走 - 操作任务来说在成本上极其高昂且在采集上极具挑战。
值得庆幸的是,人类第一视角视频提供了一种可扩展的替代方案,因为这类视频在无需进行机器人远程操控的前提下,就能捕获大量自然的运动模式以及丰富的行为层面的信息。
然而,由于人类与机器人在形体结构上的巨大差异,直接将人类视频中的知识迁移到仿人机器人控制上并非易事。
- 早期工作尝试通过采用统一的人类中心状态 - 动作表示,从人类视频中进行学习。然而,由于人类与仿人机器人在本质上存在差异(包括动作频率、运动动力学以及自由度的不同),从这类异构数据中学习仍然具有挑战性。 ———— 尽管这些方法采用了领域自适应或将人类与机器人数据混合进行协同训练的策略,但用单一的整体策略去建模两种在本质上截然不同的动作分布,从根本上来说是次优的。 其结果是,所学得的策略在控制仿人机器人执行复杂的、长时程任务时依然表现吃力。
- 因此,作者研究一个根本性问题:如何有效地从人类第一视角视频中提炼运动先验和世界知识,从而支持人形机器人实现鲁棒的全身控制?
为此,来自南加州 USC Physical Superintelligence (PSI) Lab、NVIDIA、WorldEngine 的研究者提出了Ψ0一种新颖的多阶段训练范式。

- 其 paper 地址为:Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
- 其项目地址为:psi-lab.ai/Psi0
- 其 github 地址为:github.com/physical-superintelligence-lab/Psi0
其对每个阶段设定不同的学习目标:
- 首先,作者在'人机统一动作空间'上预训练一个视觉语言模型 VLM,使其能够预测下一步动作。 该阶段的目标是让模型在各类丰富活动中学习任务层面的运动先验,同时学习与下游机器人任务对齐的视觉表征。
- 随后,利用真实人形机器人数据,单独训练一个基于流模型的动作专家,使其能够直接在关节空间中预测动作序列。 这个后训练阶段同时包含:在跨任务的人形数据上的与任务无关训练,以及在同域遥操作示范上的任务特定微调。 ———— 且作者将动作专家实现为一个多模态扩散 Transformer(MM-DiT),该模型相比朴素的 DiT,这一模型更为强大。 在以 VLM 提供的视觉 - 语言特征作为条件的前提下,动作专家能够高效且并行地输出关节空间中的动作片段。 该阶段使得动作专家能够捕捉到与具体形体相关的动力学特性。因此,只需要少量额外的真实机器人数据进行任务级的微调,模型便可以快速习得具有长时间跨度的灵巧行走 - 操控一体化技能
1.1.2 相关工作
首先,对于全身灵巧操作
近年来,类人机器人全身控制在诸多研究工作中取得了显著进展。
- 当前的类人机器人已经能够模仿多样的人体动作,如跑步、跳舞,甚至空翻。 可尽管在运动能力方面的进展显著,研究者在实现与之相当水平的类人灵巧'行走 - 操作'(loco-manipulation)方面仍面临挑战。
- LangWBC 和 LeVERB 提出了基于语言条件的全身控制策略,使类人机器人能够鲁棒地执行高层级、由语言指定的行为。 然而,这些方法主要聚焦在行走与导航,对灵巧操作场景关注有限。
- 与此并行,AMO 和 TWIST2 通过基于 VR 的遥操作实现类人机器人的全身控制,为采集'行走 - 操作'数据提供了一种高效框架。 但它们更侧重于低层控制,而非学习适用于长时间尺度灵巧行走 - 操作任务的精确策略。
另一方面,灵巧操作由于需要高自由度控制,以及手掌与手指之间频繁的自遮挡而长期面临挑战,这些因素使得基于视觉的灵巧操作极其困难。
- Being-H0 通过收集大量手 - 物体交互视频,并利用运动填补(motion-infilling)和轨迹平移(translation)等多种任务数据对预训练的 VLM 进行微调,从人类视频中进行学习。 然而,该方法仅限于单臂的桌面操作。
- 为了解决上述挑战,作者提出构建一个用于人形整体身体灵巧操作的统一 VLA 模型。
其次,对于人形 VLA
受基础模型非凡成功的启发,VLA(视觉语言动作模型)作为一种有前景的研究方向逐渐兴起,被用于将人工智能带入物理世界。
- π0 系列在具有挑战性的操作场景中展现出了卓越的泛化能力和鲁棒性,这些场景包括双臂操作和移动操作。 GR00T 进一步开源了首个面向人形机器人的基础模型,该模型在由真实世界数据与从视频生成的合成数据构成的大规模混合数据上进行训练。
- 然而,与这些工作相反,作者发现:相比于单纯扩展到海量、形态各异的跨载体数据规模,在更高质量数据上进行训练更加关键。 故在本工作中,作者探索了一种用于训练人形 VLA 的新范式:利用大规模人类自视角视频数据,并辅以少量真实机器人交互数据
最后,对于从第一人称视频中学习
数据稀缺依然是训练 VLA 的根本瓶颈,因为遥操作数据的采集效率较低,且在规模化时成本高昂。相比之下,人类视频数据蕴含了丰富的人与物体交互的先验知识,因此提供了一种可扩展的替代方案。
- 最新方法,如 EgoVLA 和 In-n-On,在人类视频与机器人数据上对模型进行联合训练,以预测统一的人类手腕与手部动作,随后在推理阶段通过逆运动学(IK)将这些预测映射为机器人动作。
- 类似地,H-RDT 训练了一个大型 diffusion transformer(DiT),在末端执行器空间中预测手臂与手部动作。 然而,将人形机器人与非人形机器人数据混合起来端到端联合训练模型并非最优做法,因为模型必须同时学习两种本质上不同的动作分布。
- 相反,作者指出了一条关键但被忽视的训练路径:在通过'下一步动作预测'完成预训练以学习任务语义和视觉表征之后,再对动作专家进行后训练,使其在关节空间中直接建模动作,从而避免联合训练带来的低效。
1.2 Ψ0 基础模型:涉及架构、训练方案、RTC、全身摇操数采
在本节中,作者介绍Ψ0(Psi-Zero),一种用于类人灵巧运动操作的 VLA 模型。
给定自然语言任务指令
和当前观测
,作者的模型预测全身动作片段
动作
被定义为
其中
和
分别为双手和手臂关节
为躯干横滚、俯仰、偏航
是类人的底座高度
是水平线速度
而
表示绕竖直方向的角速度
是目标偏航转角
观测
包含 当前的头部相机图像
和 全身本体感觉状态
包括上身关节状态、躯干横滚、俯仰、偏航以及底座高度
总之,作者采用基于 RL 的控制策略来控制数据收集和策略评估全过程中的下肢和躯干关节。
1.2.1 模型架构
Ψ0 是一个采用三重系统架构的基础模型,遵循以往工作。
8 自由度的下肢动作
被传递给system-0,一个基于 RL 的跟踪策略 —— 作者采用现成的控制器 AMO。 它将这些输入映射为 15 自由度的下肢关节角
,包括 3DoF 腰部和 12 自由度腿部关节
再加上 28 自由度的上肢关节
,系统输出 43 自由度动作以实现全身控制
如图 2 所示,高层策略由两个端到端训练的组件组成:

一个视觉 - 语言骨干网络作为 system-2 作者使用最先进的视觉 - 语言基础模型 Qwen3-VL-2B-Instruct 作为 system-2 和 一个多模态扩散 Transformer(MM-DiT)动作专家作为 system-1 动作专家被实现为一种基于流的 MM-DiT,灵感来自 Stable Diffusion,包含大约 5 亿个参数。与朴素的基于 DiT 的动作头相比,这种设计能够更高效地融合动作和视觉 - 语言特征 ———— 最终在以 VLM 骨干网络的隐藏特征为条件的情况下,动作专家预测未来的全身动作片段
1.2.2 训练方案:预训练、后训练、微调
作者提出了一种高效的训练方案,用于从人类视频和真实机器人数据中学习类人机器人行走 - 操作(loco-manipulation)技能。
整体训练过程包含三个阶段:
- 第一阶段,在大规模、高质量且多样化的人类第一视角视频上预训练 VLM 主干网络;
- 第二阶段,在跨任务的真实类人机器人数据上对基于流的动作专家(flow-based action expert)进行后训练;
- 第三阶段,使用少量任务域内数据对该动作专家进行微调,从而实现对新任务的快速适应。
首先,对于在第一人称人类视频上进行预训练
- 训练类人基础模型面临显著的数据稀缺瓶颈。相比真实世界机器人数据,人类第一人称视频的扩展成本要低得多,因此提供了一种很有前景的替代方案。 因此,作者利用 EgoDex,其中包含约 829 小时的人类第一人称视频,记录了人手执行多种灵巧操作任务的过程。 且为了进一步缓解人类视频与机器人观测之间的视觉差异,作者加入了 HumanoidEveryday,其中包含 31 小时的类人数据,涵盖 260 种多样任务,从人 - 物体交互到对可变形和关节物体的操作
然而,直接训练模型自回归地预测多个高维动作块在计算上非常昂贵,并且会极大地减慢预训练过程。 作者的关键见解是,预训练 VLM 骨干网络的目标是学习语言指令的任务语义以及用于下游真实机器人操作的视觉表征 对于这样的目标,预测单个下一步动作**就足够了
因此,作者训练 VLM 仅预测一个单步动作
而不是
,这需要少得多的计算。
作者使用 FAST 将连续动作离散化为离散的 token。
即从 EgoDex 中随机抽取的 50 万条动作数据上训练 FAST tokenizer。
最终训练得到的分词器实现了平均 L1 重建损失为 0.005,并将每个动作序列从 48 个 token 压缩到可变 token 长度
然后,VLM 以自回归方式训练来预测下一个动作 token,即最大化
且对人手和机器人末端执行器使用统一的动作表示。 具体而言,任务空间中的 48 自由度动作被定义为
其中每个
或
为
其中
是一个 9 自由度的手腕位姿向量,由 3D 位置和 6D 旋转组成
每个
是一个 3D 指尖位置,因为有五个手指,所以对应五个
这样的统一动作表示使人类数据和机器人数据的联合训练成为可能,并实现了稳定训练。
对于预训练,再补充更多细节其次,对于超参数 作者使用 DeepSpeed 训练完整的 VLM 骨干网络,遵循原始 Qwen3-VL 的训练设置。语言骨干、MMprojector 和视觉塔的学习率分别设为 1 × 10−4, 1 × 10−5 和 1 × 10−5,并在整个预训练过程中保持不变。
且作者观察到默认的 1 ×10−6 学习率对于有效收敛来说过小。EgoDex 中的默认图像分辨率为 1920 × 1080,这会导致内存占用极高; 因此,作者将图像缩放到 360 × 240。
最后使用 64 块 A100 GPU 对 Qwen3-VL-2B-Instruct 变体进行预训练,全局 batchsize 为 1024。 训练大约需要 10 天以达到 230k 步,其中前 200k 步仅在 EgoDex 数据集上训练,剩余的 30k 步仅在 Humanoid Everyday 数据集上训练。
首先,对于 FAST tokenizer 作者使用 H-RDT 中的数据处理脚本获得了一个 48 自由度的任务空间动作表示,以及相应的数据集统计信息。 动作数据从原始的 30 Hz 下采样到 10 Hz。
作者发现,原始开源的 FAST tokenizer 在重建损失方面表现较大 (0.583 × 10−4),特别是在有噪声的 token 设置下。
为了解决这一问题,作者使用 500,000 个随机采样的动作从头训练了 FAST tokenizer,从而导致了更长的 token 长度。动作使用数据集的 1 st 和 99th 分位数进行归一化。动作时域长度、词汇表大小和 scale 分别设置为 1、2048 和 100。 拟合前后动作重建性能的对比如表 II 所示。

其次,对于在跨任务真实人形数据上的后训练
在训练完 VLM 骨干网络后,作者冻结其参数并从头开始训练动作专家。
以从 VLM 骨干中提取的隐藏特征
和均匀采样的流动时间步
为条件,流匹配训练目标为——定义为公式 2
其中
是高斯噪声,
是加噪后的动作
且作者改编了 MM-DiT 架构来实现动作专家网络
,如图 3 所示。

具体来说,模型使用时间条件特征
分别调制动作(A)特征和视觉 - 语言(VL)特征。
在每个 transformer 块中,动作 token 和 VL token 执行联合全局注意力,这相比于朴素的 DiT 有利于更有效地融合视觉信息。
再补充更多关于后训练阶段的细节对于数据处理 作者使用 ***Humanoid Everyday(HE)***数据集在联合空间中对动作专家进行后训练。 由于 HE 包含两种不同的具身形式——使用 Dex3-1 的 G1 和使用 Inspire Hand 的 H1——它们的手指关节形态和自由度不同,作者通过重新排序默认的关节索引来对齐动作表示。
得到的动作表示具有 28 个自由度(DoF),其中手部为 14 个自由度,手臂为 14 个自由度。 状态表示也以类似方式进行处理。
为了在不重新初始化状态和动作投影器的情况下实现动作专家的未来微调,作者将动作向量和状态向量分别填充至 36 自由度和 32 自由度。 被填充的这些维度对应的是在 HE 数据集中不存在的下肢控制信号。对于超参数 在后训练过程中,VLM 主干网络被冻结,仅使用恒定学习率 1 × 10−4 优化动作专家。 全局批大小设为 2048,训练进行 30k 步。 在 32 张 A100 GPU 上训练大约耗时 30 小时。输入图像被下采样到 320 × 240。 且作者对扩散时间步τ ∈[0, 1] 采用均匀采样,并在真实环境实验中观察到与其他采样策略相比没有性能差异。
最后,对于在域内遥操作数据上进行微调
在已经完成 VLM 预训练和动作专家后训练的基础上,作者的模型可以使用少量域内数据进行端到端的进一步微调,从而快速学习长时域、高灵巧性的行走 - 操作一体化任务。
- 大多数任务在 30Hz 频率下的步数超过 2,000 步,使其真正成为长时域任务。 每个任务包含三到五个子任务,每个子任务对应一种技能,例如抓取或推动。
比如在八个真实世界任务上对模型进行评估(如图 6 所示)。

每个任务都提出了不同的挑战:有的需要精确的机械臂协调,有的则要求长距离导航。
再补充关于微调的更多细节对于真实世界任务,作者仅微调动作专家,同时保持 VLM 骨干网络冻结。 每个真实世界任务由 80 个远程操作数据的 episode 组成。 且将全局批大小设置为 128,并针对每个任务训练 40k 步。使用余弦学习率调度器,初始学习率设置为 1 × 10−4。 状态和动作使用各自的最小值和最大值进行归一化图像分辨率和扩散时间步采样与后训练中的设置相同。对实时分块的支持见第 VII-A 节。
1.2.2 实时动作分块 RTC
人形机器人在控制过程中需要平滑且具备快速反应的能力,尤其是在执行长时域、灵巧操作任务时。
然而,现有的 VLA 通常包含数十亿个参数,这不可避免地由于推理延迟而引入'停下来思考'的行为。
- 作者的Ψ0 模型同样包含超过 25 亿个参数,单次前向传播大约需要 160 ms。 为了在存在这种延迟的情况下仍然实现平滑的策略展开,作者采用了训练阶段的实时分块(RTC),遵循文献。
利用 RTC,每次动作预测都以先前已经执行的动作块为条件,并输出一个一致的未来动作块,如图 4 所示。

为了在训练过程中真实地模拟推理延迟,作者随机从前
个 token 中移除扩散噪声,并在式 (2)
的损失计算中将其掩蔽。
在这里,
表示以时间步为单位的最大推理延迟,而 H 和 s 分别对应动作分块预测视界和执行视界。
如原论文 VII. 实时分块所说,再补充关于 RTC 的更多细节
系统实现 作者在图 9 中展示了实时动作分块系统的设计『系统由客户端(负责观测收集和动作执行)和服务器端(负责控制与推理)组成。控制循环(30Hz)用于协调观测更新与动作下发,而推理循环则异步运行,在 t ≥ smin 时计算下一段动作分块,从而实现分块之间的无缝衔接,避免因推理造成的中断』。

该系统由两个组件构成:用于获取观测并执行动作的客户端,以及用于控制与模型推理的服务器端。
系统的整体运行频率由服务器端的控制循环(Control Loop)决定,控制循环以 30Hz 的频率运行。
在控制循环的每一个时间步中,观测会被更新,系统查询一个动作并将其发送至客户端执行,客户端执行后生成新的观测。
为了保证动作执行不中断,模型推理通过推理循环(Inference Loop)以异步方式相对于动作执行进行。
推理循环与控制循环共享动作块、观测以及时间步计数器。当当前动作块的执行进度超过某一阈值(t ≥ s_min)时,推理循环被触发以获得下一个动作块。 系统会在前一个动作块尚未完全执行完毕之前切换到新的动作块,从而确保由于推理延迟不会在相邻动作块之间产生系统中断。
对于训练阶段的实时分块(RTC) 除了用于训练之外,Ψ0 还支持在部署阶段进行实时控制。 现代 VLA(视觉 - 语言 - 动作模型)通常拥有数十亿参数,在采用朴素的同步推理策略时会带来显著的推理延迟。 *具体而言,在朴素的


