异构预训练 Transformer(HPT)模型详解:解决机器人异构性难题
通用机器人模型,目前最大的障碍便是「异构性」。也就是说,必须收集全方位——每个机器人、任务和环境的特定数据,而且学习后的策略还不能泛化到这些特定设置之外。
由此,AI 大神何恺明带队的 MIT、Meta FAIR 团队,提出了异构预训练 Transformer(HPT)模型。即预训练一个大型、可共享的神经网络主干,就能学习与任务和机器人形态无关的共享表示。简单讲,就是在你的策略模型中间放置一个可扩展的 Transformer,不用从头开始训练!

论文地址:https://arxiv.org/pdf/2409.20537
研究人员将不同本体视觉输入对齐到统一的 token 序列,再处理这些 token 以控制不同任务的机器人。最后发现,HPT 优于多个基准模型,并在模拟器基准和真实世界环境中,将未见任务微调策略性能,提升 20%。
值得一提的是,这项研究被 NeurIPS 2024 接收为 Spotlight。
在真实环境中,HPT 加持下的机器人本体,能够自主向柴犬投食。

而且,即便是洒了一地狗粮,机器人也能用抹布,将其收到一起。

而在模拟环境中,HPT 架构让机器人任务操作,更加精准。

接下来,一起深度了解下异构预训练 Transformer(HPT)模型的核心要素吧。
搭建「异构性」桥梁
如今,构建特定的机器人策略很困难,其中最大的难题就是数据收集和缺少泛化性。
不同硬件的机器人在物理上具有不同的本体(embodiment),每种实例可以有不同的「本体感觉」(proprioception),包括不同的自由度、末端执行器、运动控制器和为特定应用构建的工作空间配置。

此外,另一种常见的异构性就是视觉异构性。不同机器人搭载了不同的视觉传感器,而且通常配备在不同位置(比如手腕/第三视角);每个机器人的外观也会因环境和任务而有很大差异。
正是由于这些难以跨越的异构性障碍,因此通常需要收集每个机器人、任务和环境的特定数据,并且学习到的策略不能泛化到这些特定设置之外。
虽然机器人领域已经积累了海量的开源数据,但异构性让数据集很难被共同利用。
从图 4 中就可以看出,仅仅是按环境分类,机器人领域的数据就能被「瓜分」为远程遥控、模拟、野外、人类视频等接近 4 等份。



















