宇树开源新里程碑:UnifoLM-VLA-0模型让机器人走进生活

宇树机器人各种炫酷的表演我们都见过,尤其是同王力宏跳舞那场演唱会,真的很震撼。

图片

刚刚,宇树科技开源的UnifoLM-VLA-0模型,则让机器人开始走进生活。

图片

UnifoLM-VLA-0通过独特的动作分块预测与动力学约束技术,让视觉-语言模型(VLMs)从单纯的图文理解进化为具备物理常识的具身大脑,在仅使用340小时真机数据的情况下实现了通用操作的极致泛化。

转载

,

宇树开源新里程碑:UnifoLM-VLA-0模型让机器人走进生活

它利用Qwen2.5-VL作为基座,通过极其高效的数据策略和创新的动力学预测架构,解决了传统模型手眼不协调的顽疾,并在宇树G1人形机器人上实现了惊人的多任务通用能力。

从图文理解到具身大脑的进化

视觉-语言模型虽然能够精准地识别出一张图片里有一个红色的苹果,也能写出关于苹果的诗歌,但它们缺乏物理常识。

它们不知道这个苹果有多重,不知道捏起它需要多大的力气,更不知道如果手滑了苹果会以什么轨迹掉落。

UnifoLM-VLA-0基于开源的Qwen2.5-VL-7B,使用跨机器人和通用场景的多任务数据集进行持续的预训练,让模型继承了基座模型强大的语义理解能力,在此基础上,还生长出了对物理世界的感知力。

这种进化让机器人拥有了类似于人类的小脑直觉。

当它看到一个物体时,不再仅仅是在进行语义打标,而是在瞬间计算出物体的空间位置、几何形态以及潜在的交互方式。

它开始理解物体之间的空间关系,明白物体在受力后的运动规律。

这就是UnifoLM-VLA-0所强调的物理常识。

这种常识的注入,使得机器人不再是一个只会执行死板代码的机械臂,而是一个能够感知环境、理解物理规律并做出自适应决策的智能生命体。

UnifoLM-VLA-0确立了单一策略,多任务操作的高标准。它不需要针对每一个特定的动作(比如开瓶盖、叠毛巾)去单独训练一个模型。它用一个统一的大脑,就能应对千变万化的生活场景。

UnifoLM-VLA-0引入了空间语义增强技术。

在传统的视觉模型中,文本指令往往很难与图像中的具体像素点精确对应。

比如指令说把杯子放在桌子左上角,模型可能知道什么是杯子,但对桌子左上角这个几何概念的理解却很模糊。

宇树的团队通过继续预训练,将文本指令与2D及3D的空间细节进行了深度融合。

这种融合让模型建立起了清晰的几何坐标系,它开始能够精准地理解像素背后的三维结构,从而极大地增强了空间感知和几何理解能力。

在机器人操作中,仅仅知道要去哪里是不够的,还需要知道怎么去以及去的过程中会发生什么。

为了让机器人动得更自然、更符合物理规律,模型构建了全链路的动力学预测数据。

UnifoLM-VLA-0集成了动作分块预测(Action Chunking Prediction)技术,并引入了前向与逆向动力学约束。

这相当于在机器人的大脑中植入了一个微型的物理引擎。

在执行动作之前,模型就已经在脑海中对动作序列进行了统一建模和预演。

这种动力学建模能力让模型具备了长时序动作规划的能力。

它不仅关注当下的这一个动作,还能预测这个动作会对物体产生什么样的后续影响,以及接下来的动作该如何衔接。

这种对物理交互规律的深度理解,使得UnifoLM-VLA-0在面对复杂任务时显得游刃有余。

通过整合2D检测与分割、任务层级分解、3D目标检测以及轨迹预测等多维度的监督信号,模型实现了几何空间与语义逻辑的完美对齐,让视觉信号能够顺畅地转化为精准的动作指令。

极致数据效率与空间推理能力

宇树团队对开源的机器人数据集进行了系统化的清洗和精选。在海量的数据海洋中,他们最终仅保留了约340小时的高质量真机数据用于离散动作的预测训练。

这个数字在动辄万亿token的语言模型训练中显得微不足道,但正是这少而精的340小时数据,成为了模型掌握物理世界交互法则的关键钥匙。

通过混合使用机器人场景和通用场景的多任务数据集,它在多类任务场景下展现出了显著增强的空间推理能力。这种能力体现在模型可以进行零样本(Zero-shot)的复杂推理。

让我们通过几个具体的推理场景来感受这种能力

这种可靠的多模态感知性能,证明了UnifoLM-VLA-0已经真正具备了理解复杂物理环境的智慧。

仿真与真机实战的顶级表现

宇树团队在LIBERO仿真基准上进行了严格的测试。UnifoLM-VLA-0展现出了压倒性的优势。

图片

图片

UnifoLM-VLA-0在LIBERO-Object(物体操作)任务上达到了完美的100分,在LIBERO-Spatial(空间感知)和LIBERO-Goal(目标达成)上也分别拿到了99.0和99.4的高分。

即便是在最考验模型长期规划能力的LIBERO-Long(长序列任务)中,它依然保持了96.2的超高水平,最终以98.7的平均分傲视群雄,超越了包括OpenVLA、InternVLA以及π0系列在内的众多知名模型。

在宇树G1人形机器人平台上,UnifoLM-VLA-0通过构建覆盖12类复杂操作任务的高质量真机数据集,模型仅使用一个单一的策略网络(Checkpoint)就完成了对所有任务的统摄。

这12类任务涵盖了极为广泛的操作类型:

  • 双臂协作整理桌面:需要左右手配合,理解物体的相对位置。
  • 收纳铅笔盒:这包括了拿起笔盒、放入背包、最后拉上拉链这一系列精细的连续动作。
  • 倒药片:打开药瓶盖并将药片倒入盒子,这需要极高的手部稳定性和对微小力度的控制。
  • 叠毛巾:这是典型的柔性物体操作,机器人需要理解毛巾的形变,将其铺平并折叠成方块。
  • 整理文具:调整笔盒位置,将笔和橡皮放入,然后关上盒子,考验的是对多种不同形状物体的适应性。
  • 收纳乒乓球拍:拿起球拍放入拍套,合上盖子并拉好拉链,涉及刚性物体与柔性容器的交互。
  • 水果分类:将西瓜放在粉色盘子,香蕉放在黄色盘子,牛油果放在绿色盘子,这是对语义理解与颜色形状匹配的综合测试。
  • 积木堆叠:按照特定顺序(红底、绿中、黄顶)堆叠积木,考验的是序列规划和精准放置。
  • 工具归位:将桌面散乱的工具放回洞洞板和杯子里的指定位置,需要极高的定位精度。
  • 擦拭污渍:拿起抹布擦除桌面的液体,这需要机器人根据视觉反馈动态调整擦拭的轨迹。
  • 擦黑板:拿起板擦清理黑板,同样是基于视觉反馈的覆盖性操作。
  • 桌面综合整理:对桌面上杂乱的物品进行整体的分类和摆放。

在执行这些任务时,UnifoLM-VLA-0展现出了极强的鲁棒性。

即便在执行过程中受到外部的人为干扰(比如轻轻推一下机器人的手臂),它也能迅速调整姿态,继续稳定地完成任务。

这种抗干扰能力是机器人走出实验室、进入家庭服务场景的必备素质。

UnifoLM-VLA-0为具身智能的研究者提供了一个高标准的参考范本。

参考资料:

https://unigen-x.github.io/unifolm-vla.github.io/

https://github.com/unitreerobotics/unifolm-vla

https://huggingface.co/unitreerobotics/models

Read more

【实战源码】TeleGrip:基于VR的机械臂遥操作系统全流程解析

【实战源码】TeleGrip:基于VR的机械臂遥操作系统全流程解析

摘要 本文对开源项目 TeleGrip 的架构与源码进行了剖析。该系统基于 LeRobot 框架,通过 VR 端位姿采集—WebSocket 通信—控制循环解算—机械臂执行 的流程,实现虚拟与物理空间的实时映射。前端采用 A-Frame 进行手柄姿态获取与可视化,后端以 Python 实现命令队列、插值与逆运动学计算,并同步驱动 PyBullet 仿真与 SO100 实体机械臂。该框架具有低延迟、高扩展性等特点,可用于 VR 遥操作、具身智能及多模态交互研究。 前言:项目背景与价值 想象一下你戴上 VR 头显,用手柄抓取虚拟物体,现实中的机械臂同步完成同样的动作——这就是 TeleGrip 的核心。 本文将带你从源码角度理解它是如何实现“虚拟到现实”的信号映射与控制闭环的。 GitHub链接:https://github.

轻小说机翻机器人:5分钟打造你的日语小说翻译神器

轻小说机翻机器人:5分钟打造你的日语小说翻译神器 【免费下载链接】auto-novel轻小说机翻网站,支持网络小说/文库小说/本地小说 项目地址: https://gitcode.com/GitHub_Trending/au/auto-novel 轻小说机翻机器人是一款开源的日语小说翻译工具,支持网络小说、文库小说和本地小说的全自动翻译处理。作为专业的轻小说翻译解决方案,它能自动抓取日本主流平台内容,提供多引擎翻译服务,并构建完整的阅读生态,让日语阅读不再受语言障碍困扰。 🚀 核心价值:为什么选择轻小说机翻机器人? 全自动小说采集系统 内置对Kakuyomu、小説家になろう等6大日本小说平台的支持,只需输入小说名称或URL,系统即可智能抓取内容并完成翻译。通过crawler/src/lib/domain/目录下的平台适配代码(如kakuyomu.ts、syosetu.ts),实现对不同网站结构的精准解析。 多引擎翻译切换 集成百度翻译、有道翻译、OpenAI类API、Sakura等多种翻译器,满足从快速浏览到深度阅读的不同需求。翻译引擎实现代码位于web/src/do

【Web 应用开发实战】SpringBoot 整合 MyBatis-Plus:从零到一快速实现数据库 CRUD

【Web 应用开发实战】SpringBoot 整合 MyBatis-Plus:从零到一快速实现数据库 CRUD

前言 在 Web 应用项目开发课程的学习中,持久层数据操作是核心环节之一。传统的 MyBatis 需要编写大量的 XML 映射文件和 SQL 语句,效率较低;而 MyBatis-Plus(简称 MP)作为 MyBatis 的增强工具,在保留 MyBatis 原有特性的基础上,实现了 “无 SQL” 式的 CRUD 操作,极大简化了数据库开发流程。本文将结合 Web 开发课程的实战场景,从开发环境配置、SpringBoot 项目搭建、MyBatis-Plus 整合到实战 CRUD,完整讲解如何快速实现 SpringBoot+MyBatis-Plus 的数据库操作,内容原创且图文并茂,适合课程学习和项目实践。 一、开发环境配置(基础准备) 在开始项目开发前,需先配置好核心开发环境,

【Web APIs】JavaScript touch 触摸事件 ① ( touchstart 触摸开始事件 | touchmove 触摸移动事件 | touchend 触摸结束事件 )

【Web APIs】JavaScript touch 触摸事件 ① ( touchstart 触摸开始事件 | touchmove 触摸移动事件 | touchend 触摸结束事件 )

文章目录 * 一、JavaScript touch 触摸事件 * 1、 touchstart 触摸开始事件 * 2、touchmove 触摸移动事件 * 3、touchend 触摸结束事件 * 二、代码示例 - touch 触摸事件 * 1、代码示例 * 2、执行结果 一、JavaScript touch 触摸事件 touchstart、touchmove、touchend 事件是 JavaScript 专为支持 触摸操作 的 移动设备( 手机、平板等 ) 设计的核心触摸事件, 用于 监听用户的触摸行为 , 构成了 完整的 触摸生命周期 ; 1、 touchstart 触摸开始事件 touchstart 触摸开始事件 : * 核心定义