OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing
摘要
近来的视觉 - 语言 - 行动(VLA)模型建立在视觉 - 语言方法之上,已取得有前景的结果,并展现了在机器人操作任务上实现任务泛化的可能性。然而,由于触觉传感器的异质性以及触觉数据采集的困难,现有 VLA 模型显著忽视了触觉感知的重要性,并在接触密集型任务中表现不佳。为解决这一问题,本文提出 OmniVTLA,这是一种引入触觉感知的新型架构。
具体贡献如下:
- 双路径触觉编码器框架:通过使用预训练的视觉 Transformer(ViT)与语义对齐的触觉 ViT(SA-ViT),提升了对多种视觉式与力觉式触觉传感器的感知能力。
- ObjTac 数据集:基于力觉的综合触觉数据集,覆盖 10 个类别下的 56 种物体,包含 13.5 万条三模态样本。
- 语义对齐触觉编码器:训练统一的触觉表征,作为 OmniVTLA 更优的初始化。
真实环境实验显示,相比最新 VLA 基线方法,OmniVTLA 在抓取与放置任务中取得了显著提升:使用夹爪时成功率达 96.9%(较基线高 21.9%),使用灵巧手时成功率达 100%(较基线高 6.2%)。此外,借助触觉感知显著降低了任务完成时间,并生成更为平滑的运动轨迹。
引言
触觉感知是人类灵巧度的基础,使人类能够以惊人的精度与适应性完成复杂任务。尽管视觉提供了全局空间上下文,触觉感知却具有互补优势:能够直接测量接触动力学(如压力分布、纹理),对视觉遮挡具有鲁棒性,并提供用于实时控制的高频反馈。
在机器人领域,视觉与触觉传感的融合已成为提升操作能力的一个前景方向。早期的工作侧重于小规模模型,将视觉与触觉特征结合用于特定任务。近期的视觉 - 语言 - 行动(VLA)模型正在变革机器人操作领域,利用大规模预训练的视觉 - 语言模型来解释自然语言指令与视觉观测。然而,这些模型主要依赖视觉与语言,忽视了触觉感知所提供的丰富语义与物理反馈。
为弥补这一差距,我们提出 OmniVTLA(视觉 - 触觉 - 语言 - 行动模型),一种将视觉、触觉与语言统一到共享语义空间的新型架构。VTLA 利用对比学习,将高分辨率触觉信号与视觉和语言概念进行对齐。具体而言,我们为触觉数据引入双编码器路径以应对异质性,分别采用预训练的视觉 Transformer(ViT)与语义对齐的触觉 ViT(SA-ViT)。其次,构建 ObjTac 数据集,采集文本、视觉与基于力的触觉数据。第三,利用跨传感器数据训练语义对齐的触觉编码器。
大量实验表明,VTLA 优于 VLA 基线方法。在抓取 - 放置任务中,VTLA 使夹爪的成功率提升 21.9% 至 96.9%,并使灵巧手的成功率提升 6.2% 至 100%。此外,VTLA 生成更为平滑的轨迹。
相关工作
用于感知任务的触觉感知
触觉感知的早期研究主要聚焦于处理低层物理信号(如力、振动、形变)以完成特定感知任务,例如抓取稳定性预测与打滑检测。最近的研究转向学习通用的触觉表征,以在任务、传感器与模态之间实现可迁移性。这些工作通过数据集构建、共享嵌入空间、可迁移架构以及统一建模框架,展示了跨模态对齐与可泛化表征对于触觉感知的重要性。尽管这些方法提升了触觉感知能力,但仍与动作策略生成相脱耦,限制了其在机器人实时控制中的适用性。此外,大多数现有工作采用基于视觉的触觉数据,而对同样在机器人策略学习中应用广泛的基于力的触觉数据关注不足。
面向操作的视觉 - 触觉融合
视觉 - 触觉策略学习的最新进展在接触密集型操作中取得了显著突破。强化学习框架已有效地将视觉与触觉输入结合,用于装配任务与灵巧的手内操控。近来,领域内愈发采用模仿学习范式,以探索用于细粒度操作的视触觉表征与系统架构。尽管这些方法在特定任务上表现出色,但与视觉 - 语言 - 行动模型相比,其语义推理与泛化能力仍然有限。
视觉 - 语言 - 行动模型
VLA 模型已成为通用型机器人策略的一种强大范式。Brohan et al. 率先将机器人动作表示为语言 token,从而实现从网络级预训练的知识迁移。后续工作通过基于流或扩散的动作生成进一步扩展了这些能力。尽管 VLA 模型擅长开放世界的泛化,仅依赖视觉与语言也限制了其在需要精确物理交互的接触密集型任务中的表现。
新近的触觉增强方法通过基于语言的传感器融合、引入触觉的 VLA 学习以及低维的力感知控制来应对这些局限。然而,这些方法尚未充分探索触觉编码器的设计。我们的 OmniVTLA 框架通过统一的跨模态表征学习,为触觉建立双编码器路径,从而在根本上推动了这一范式的发展。
方法
问题形式化
形式上,动作模型的目标是对分布 $p(\mathbf{A}_t|\mathbf{o}t)$ 建模,其中 $\mathbf{A}t= {a_t,a{t+1},\ldots,a{t+H-1}}$ 表示相应的动作序列,$\mathbf{o}_t$ 表示当前时刻的观测。对于典型的 VLA 模型,观测由若干 RGB 图像、语言提示以及机器人本体感觉状态组成,模型可形式化为:


