Being-H0.5：扩展以人为中心的机器人学习实现跨具身泛化

Being-H0.5 是由 BeingBeyond 团队提出的基础视觉 - 语言 - 动作 (VLA) 模型，旨在实现跨不同机器人平台的鲁棒泛化。该模型基于 UniHand-2.0 数据集，包含 30 种机器人具身的 35,000 小时多模态数据，采用以人为中心的学习范式。架构上，模型使用混合 Transformer (MoT) 和混合流 (MoF) 框架，引入统一状态 - 动作空间和解耦专家模块。后训练阶段采用具身特定适应 (ESA)、流形 - 保持门控 (MPG) 和通用异步分块 (UAC) 技术，解决分布偏移和时间不匹配问题。实验表明，该模型在真实机器人和仿真基准测试中均展现出优异的跨具身能力和任务规划水平。

樱花落尽发布于 2026/4/6更新于 2026/7/2260 浏览

Being-H0.5：扩展以人为中心的机器人学习实现跨具身泛化

2026 年 1 月，BeingBeyond 团队发表了论文'Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization'。

Being-H0.5 是一个基础视觉 - 语言 - 动作 (VLA) 模型，旨在实现跨不同机器人平台的鲁棒跨具身泛化。现有的 VLA 模型通常难以应对形态异质性和数据稀缺性，而提出的一种以人为中心学习范式，将人类交互痕迹视为物理交互的通用'母语'。为了支持这一范式，推出 UniHand-2.0，这是迄今为止规模最大的具身预训练方案，包含来自 30 种不同机器人具身的超过 35,000 小时多模态数据。该方法引入一个统一动作空间，将异构的机器人控制映射到语义对齐槽中，使低资源机器人能够从人类数据和高资源平台中引导技能。基于这一以人为中心的基础，设计一个统一的序列建模和多任务预训练范式，以连接人类演示和机器人执行。在架构上，Being-H0.5 采用混合 Transformer（MoT）设计，并引入一种混合流 (MoF) 框架，将共享的运动基元与特定于具身的专家解耦。此外，为了使跨具身策略在现实世界中保持稳定，引入流形 - 保持门控 (Manifold-Preserving Gating) 以增强其在感官转换下的鲁棒性，并引入通用异步分块 (Universal Async Chunking)，通用化地实现具有不同延迟和控制特性的具身之间分块控制。

视觉 - 语言 - 动作模型（VLA）需要大量的机器人交互数据来获取可操作的知识和世界常识。然而，当前的机器人数据现状受到几个根本性限制。本文的工作系统地解决了以下关键挑战：

数据规模和多样性有限。大多数现有的 VLA 都受限于其预训练语料库规模和多样性不足。许多模型依赖于范围狭窄的数据，例如 Open X-Embodiment 数据集，该数据集在经过严格筛选后仅提供六个主要子集，且多样性有限；而 Agibot World 仅包含约 200 小时的桌面操作数据，并且缺乏必要的第三人称视角。这种数据匮乏阻碍模型对新任务和动态环境的泛化。为了克服这一问题，构建一个综合性的机器人操作数据集，该数据集聚合绝大多数可用的机器人数据。
具身多样性受限。除了规模之外，现有数据集通常包含有限的几种机器人形态，往往仅限于单一类型的机器人。虽然存在一些跨形态的数据集，但由于显著的结构差异，将这些数据源统一起来进行预训练仍然十分困难。因此，很少有 VLA 模型能够成功地整合广泛的机器人形态。例如，π 系列仅包含 10 种机器人类型，主要为同质化的双手平台。相比之下，本文的 UniHand-2.0 整合来自 30 种不同形态的数据，涵盖单臂/双臂、便携式、半人形和腿式人形机器人。通过将这些异构数据源投影到统一的状态 - 动作空间来实现这一点，从而确保训练的稳定性。
灵巧手数据的稀缺性。尽管通用数据采集技术取得进展，但涉及灵巧手部的数据仍然极其稀少，仅占现有语料库的不到 5%。这种不足源于硬件成本高昂以及灵巧远程操作的吞吐量低。为了缓解这一问题，利用类似于大规模人体运动数据作为可扩展的智体，充分利用了在自然环境中捕捉人手交互相对容易的优势。
视觉信息与语言信息不平衡。以往的视觉语言分析模型通常仅依赖机器人数据进行预训练，导致严重的模态不平衡，文本标记与视觉标记的比例可能高达 1:3000。这种差异导致模型丧失了大量的文本推理能力，而这对于执行长时任务至关重要。虽然一些研究工作采用了视觉语言数据或交错的多模态样本，但我们在预训练阶段系统地整合了海量多模态数据，以确保 Being-H0.5 在原子动作执行和长时程任务规划及空间推理方面均表现出色。

UniHand-2.0 是一个基于其前身 UniHand-1.0 构建的显著扩展的数据集。该数据集包含从 35,000 小时的多模态数据中提取的超过 4 亿个样本，总计超过 1200 亿个训练 tokens。这些样本涵盖三个关键领域：以自我为中心的人类运动、机器人操作和视觉语言理解。

如图所示，UniHand-2.0 是一个以人为中心的 VLA 预训练语料库。不同研究工作对 Open X-Embodimen 数据集的使用存在争议。因此，将具身化计数限制在数据时长超过 10 小时的范围内。UniHand-2.0 利用低成本的人体数据作为主要预训练材料，将人手视为所有末端执行器的通用模板，赋予模型基础交互知识和物理理解。通过从 16,000 小时以自我为中心的视频中提取 1.34 亿个人体数据样本，进一步推进这一范式，数据量比 UniHand-1.0 增加 100 倍。此外，UniHand-2.0 还整合超过 14,000 小时的涵盖 30 种不同具身类型（例如 Franka、AgiBot-GR1、Unitree-G1、SO101）的多样化机器人数据，使模型具备强大的跨具身泛化能力。

请添加图片描述

这种具身多样性是现有基于扩散 VLA 模型的先决条件。从流形学习的角度来看，简单的具身（例如并联机械臂）在一个低维、光滑的动作流形上运行。相比之下，灵巧机器人则处于复杂的高维空间中，其流形结构通常是非线性和碎片化的。这些复杂实体的动作分布与简单实体的动作分布存在根本差异。例如，机械臂的二元'打开/关闭'指令是一个简单的标量，而灵巧手的'精确捏合'则需要一个高维的协调向量。这种差异导致适应过程中目标分布发生严重的偏移。此外，对于扩散框架而言，它必须推断出一个连续的向量场来定义向下一个动作状态的概率演化。当一个仅在简单机器人上预训练的模型遇到复杂实体的未知状态空间时，其向量场预测会受到累积误差的影响。这些误差会导致生成的轨迹'漂移'，并迅速偏离有效的机器人运动流形，从而导致不稳定或物理上不可行的行为。