宇树开源 UnifoLM-VLA-0 模型实现具身智能通用操作

综述由AI生成宇树科技开源 UnifoLM-VLA-0 模型，基于 Qwen2.5-VL-7B 构建。该模型引入动作分块预测与动力学约束技术，赋予视觉语言模型物理常识。仅使用 340 小时真机数据，在 LIBERO 仿真基准上取得 98.7 平均分，超越 OpenVLA 等竞品。在宇树 G1 人形机器人上实现了双臂协作、收纳、倒药片等 12 类复杂任务的单策略泛化，具备零样本推理能力和抗干扰性，推动具身智能进入生活场景。

莫名其妙发布于 2026/4/6更新于 2026/5/2224 浏览

宇树机器人各种炫酷的表演我们都见过，尤其是同王力宏跳舞那场演唱会，真的很震撼。

刚刚，宇树科技开源的 UnifoLM-VLA-0 模型，则让机器人开始走进生活。

UnifoLM-VLA-0 通过独特的动作分块预测与动力学约束技术，让视觉 - 语言模型（VLMs）从单纯的图文理解进化为具备物理常识的具身大脑，在仅使用 340 小时真机数据的情况下实现了通用操作的极致泛化。

它利用 Qwen2.5-VL 作为基座，通过极其高效的数据策略和创新的动力学预测架构，解决了传统模型手眼不协调的顽疾，并在宇树 G1 人形机器人上实现了惊人的多任务通用能力。

从图文理解到具身大脑的进化

视觉 - 语言模型虽然能够精准地识别出一张图片里有一个红色的苹果，也能写出关于苹果的诗歌，但它们缺乏物理常识。

它们不知道这个苹果有多重，不知道捏起它需要多大的力气，更不知道如果手滑了苹果会以什么轨迹掉落。

UnifoLM-VLA-0 基于开源的 Qwen2.5-VL-7B，使用跨机器人和通用场景的多任务数据集进行持续的预训练，让模型继承了基座模型强大的语义理解能力，在此基础上，还生长出了对物理世界的感知力。

这种进化让机器人拥有了类似于人类的小脑直觉。

当它看到一个物体时，不再仅仅是在进行语义打标，而是在瞬间计算出物体的空间位置、几何形态以及潜在的交互方式。

它开始理解物体之间的空间关系，明白物体在受力后的运动规律。

这就是 UnifoLM-VLA-0 所强调的物理常识。

这种常识的注入，使得机器人不再是一个只会执行死板代码的机械臂，而是一个能够感知环境、理解物理规律并做出自适应决策的智能生命体。

UnifoLM-VLA-0 确立了单一策略，多任务操作的高标准。它不需要针对每一个特定的动作（比如开瓶盖、叠毛巾）去单独训练一个模型。它用一个统一的大脑，就能应对千变万化的生活场景。

UnifoLM-VLA-0 引入了空间语义增强技术。

在传统的视觉模型中，文本指令往往很难与图像中的具体像素点精确对应。

比如指令说把杯子放在桌子左上角，模型可能知道什么是杯子，但对桌子左上角这个几何概念的理解却很模糊。

宇树的团队通过继续预训练，将文本指令与 2D 及 3D 的空间细节进行了深度融合。

这种融合让模型建立起了清晰的几何坐标系，它开始能够精准地理解像素背后的三维结构，从而极大地增强了空间感知和几何理解能力。

在机器人操作中，仅仅知道要去哪里是不够的，还需要知道怎么去以及去的过程中会发生什么。

为了让机器人动得更自然、更符合物理规律，模型构建了全链路的动力学预测数据。

UnifoLM-VLA-0 集成了动作分块预测（Action Chunking Prediction）技术，并引入了前向与逆向动力学约束。

这相当于在机器人的大脑中植入了一个微型的物理引擎。

在执行动作之前，模型就已经在脑海中对动作序列进行了统一建模和预演。

这种动力学建模能力让模型具备了长时序动作规划的能力。

它不仅关注当下的这一个动作，还能预测这个动作会对物体产生什么样的后续影响，以及接下来的动作该如何衔接。

这种对物理交互规律的深度理解，使得 UnifoLM-VLA-0 在面对复杂任务时显得游刃有余。

通过整合 2D 检测与分割、任务层级分解、3D 目标检测以及轨迹预测等多维度的监督信号，模型实现了几何空间与语义逻辑的完美对齐，让视觉信号能够顺畅地转化为精准的动作指令。

极致数据效率与空间推理能力

宇树团队对开源的机器人数据集进行了系统化的清洗和精选。在海量的数据海洋中，他们最终仅保留了约 340 小时的高质量真机数据用于离散动作的预测训练。

这个数字在动辄万亿 token 的语言模型训练中显得微不足道，但正是这少而精的 340 小时数据，成为了模型掌握物理世界交互法则的关键钥匙。

通过混合使用机器人场景和通用场景的多任务数据集，它在多类任务场景下展现出了显著增强的空间推理能力。这种能力体现在模型可以进行零样本（Zero-shot）的复杂推理。

宇树开源 UnifoLM-VLA-0 模型实现具身智能通用操作

从图文理解到具身大脑的进化

极致数据效率与空间推理能力

更多推荐文章

相关免费在线工具

仿真与真机实战的顶级表现

更多推荐文章

相关免费在线工具

宇树开源 UnifoLM-VLA-0 模型实现具身智能通用操作

从图文理解到具身大脑的进化

极致数据效率与空间推理能力

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

仿真与真机实战的顶级表现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具