宇树机器人各种炫酷的表演我们都见过,尤其是同王力宏跳舞那场演唱会,真的很震撼。

刚刚,宇树科技开源的 UnifoLM-VLA-0 模型,则让机器人开始走进生活。

UnifoLM-VLA-0 通过独特的动作分块预测与动力学约束技术,让视觉 - 语言模型(VLMs)从单纯的图文理解进化为具备物理常识的具身大脑,在仅使用 340 小时真机数据的情况下实现了通用操作的极致泛化。
它利用 Qwen2.5-VL 作为基座,通过极其高效的数据策略和创新的动力学预测架构,解决了传统模型手眼不协调的顽疾,并在宇树 G1 人形机器人上实现了惊人的多任务通用能力。
从图文理解到具身大脑的进化
视觉 - 语言模型虽然能够精准地识别出一张图片里有一个红色的苹果,也能写出关于苹果的诗歌,但它们缺乏物理常识。
它们不知道这个苹果有多重,不知道捏起它需要多大的力气,更不知道如果手滑了苹果会以什么轨迹掉落。
UnifoLM-VLA-0 基于开源的 Qwen2.5-VL-7B,使用跨机器人和通用场景的多任务数据集进行持续的预训练,让模型继承了基座模型强大的语义理解能力,在此基础上,还生长出了对物理世界的感知力。
这种进化让机器人拥有了类似于人类的小脑直觉。
当它看到一个物体时,不再仅仅是在进行语义打标,而是在瞬间计算出物体的空间位置、几何形态以及潜在的交互方式。
它开始理解物体之间的空间关系,明白物体在受力后的运动规律。
这就是 UnifoLM-VLA-0 所强调的物理常识。
这种常识的注入,使得机器人不再是一个只会执行死板代码的机械臂,而是一个能够感知环境、理解物理规律并做出自适应决策的智能生命体。
UnifoLM-VLA-0 确立了单一策略,多任务操作的高标准。它不需要针对每一个特定的动作(比如开瓶盖、叠毛巾)去单独训练一个模型。它用一个统一的大脑,就能应对千变万化的生活场景。
UnifoLM-VLA-0 引入了空间语义增强技术。
在传统的视觉模型中,文本指令往往很难与图像中的具体像素点精确对应。
比如指令说把杯子放在桌子左上角,模型可能知道什么是杯子,但对桌子左上角这个几何概念的理解却很模糊。
宇树的团队通过继续预训练,将文本指令与 2D 及 3D 的空间细节进行了深度融合。
这种融合让模型建立起了清晰的几何坐标系,它开始能够精准地理解像素背后的三维结构,从而极大地增强了空间感知和几何理解能力。
在机器人操作中,仅仅知道要去哪里是不够的,还需要知道怎么去以及去的过程中会发生什么。
为了让机器人动得更自然、更符合物理规律,模型构建了全链路的动力学预测数据。
UnifoLM-VLA-0 集成了动作分块预测(Action Chunking Prediction)技术,并引入了前向与逆向动力学约束。
这相当于在机器人的大脑中植入了一个微型的物理引擎。
在执行动作之前,模型就已经在脑海中对动作序列进行了统一建模和预演。
这种动力学建模能力让模型具备了长时序动作规划的能力。
它不仅关注当下的这一个动作,还能预测这个动作会对物体产生什么样的后续影响,以及接下来的动作该如何衔接。
这种对物理交互规律的深度理解,使得 UnifoLM-VLA-0 在面对复杂任务时显得游刃有余。
通过整合 2D 检测与分割、任务层级分解、3D 目标检测以及轨迹预测等多维度的监督信号,模型实现了几何空间与语义逻辑的完美对齐,让视觉信号能够顺畅地转化为精准的动作指令。
极致数据效率与空间推理能力
宇树团队对开源的机器人数据集进行了系统化的清洗和精选。在海量的数据海洋中,他们最终仅保留了约 340 小时的高质量真机数据用于离散动作的预测训练。
这个数字在动辄万亿 token 的语言模型训练中显得微不足道,但正是这少而精的 340 小时数据,成为了模型掌握物理世界交互法则的关键钥匙。
通过混合使用机器人场景和通用场景的多任务数据集,它在多类任务场景下展现出了显著增强的空间推理能力。这种能力体现在模型可以进行零样本(Zero-shot)的复杂推理。



