论文笔记(九十九)OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing
OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing
- 文章概括
- Abstract
- 1 Introduction
- 2 Related Works
- 3 Methods
- 4 Experiments
- 5 Conclusion and Future Work
- 6 Appendix
with Semantic-Aligned Tactile Sensing)
文章概括
引用:
@article{cheng2025omnivtla, title={OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing}, author={Cheng, Zhengxue and Zhang, Yiqian and Zhang, Wenkang and Li, Haoyu and Wang, Keyu and Song, Li and Zhang, Hengdi}, journal={arXiv preprint arXiv:2508.08706}, year={2025}}Cheng, Z., Zhang, Y., Zhang, W., Li, H., Wang, K., Song, L. and Zhang, H., 2025. OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing. arXiv preprint arXiv:2508.08706. 主页:
原文:https://arxiv.org/pdf/2508.08706
代码、数据和视频:
系列文章:
请在 《 《 《文章 》 》 》 专栏中查找
宇宙声明!
引用解析部分属于自我理解补充,如有错误可以评论讨论然后改正!
Abstract
近来的视觉-语言-行动(VLA)模型建立在视觉-语言方法之上,已取得有前景的结果,并展现了在机器人操作任务上实现任务泛化的可能性。然而,由于触觉传感器的异质性以及触觉数据采集的困难,现有VLA模型显著忽视了触觉感知的重要性,并在接触密集型任务中表现不佳。为解决这一问题,本文提出OmniVTLA,这是一种引入触觉感知的新型架构。具体来说,我们的贡献有三点。
第一,OmniVTLA包含一个双路径的触觉编码器框架。该框架通过使用预训练的视觉Transformer(ViT)与语义对齐的触觉ViT(SA-ViT),提升了对多种视觉式与力觉式触觉传感器的感知能力。
第二,我们提出ObjTac,这是一个基于力觉的综合触觉数据集,覆盖10个类别下的56种物体,并同时采集文本、视觉与触觉信息。ObjTac包含13.5万条三模态样本,作为对现有视触觉数据集的重要补充。
第三,基于该数据集,我们训练了一个语义对齐的触觉编码器,以学习统一的触觉表征,并作为OmniVTLA更优的初始化。
真实环境实验显示,相比最新VLA基线方法,OmniVTLA在抓取与放置任务中取得了显著提升:使用夹爪时成功率达96.9%(较基线高21.9%),使用灵巧手时成功率达100%(较基线高6.2%)。此外,与现有VLA相比,OmniVTLA借助触觉感知显著降低了任务完成时间,并生成更为平滑的运动轨迹。ObjTac数据集可在:https://readerek.github.io/Objtac.github.io 查阅。
1 Introduction
触觉感知是人类灵巧度的基础,使人类能够以惊人的精度与适应性完成复杂任务——从穿针引线到操控易碎物品。尽管视觉提供了全局空间上下文,触觉感知却具有互补优势:能够直接测量接触动力学(如压力分布、纹理),对视觉遮挡具有鲁棒性,并提供用于实时控制的高频反馈(Dahiya et al., 2009)。这些生物学证据强调了在需要物理交互的复杂操作任务中,视觉与触觉一体化的关键作用。
在机器人领域,视觉与触觉传感的融合已成为提升操作能力的一个前景方向(Cui and Trinkle, 2021)。早期工作(Calandra et al., 2018; Li et al., 2018; Qi et al., 2023; Huang et al., 2024)侧重于小规模模型,将视觉与触觉特征结合用于特定任务,如打滑检测或抓取稳定性预测。尽管这些方法展示了多模态感知的价值,但其适用范围有限,常常针对狭窄应用进行定制,且在多样化场景中的泛化能力不足。
近期的视觉-语言-行动(VLA)模型进展(Brohan et al., 2023a; Kim et al., 2024a; Black et al., 2024; Team et al., 2025)正在变革机器人操作领域。这些方法利用大规模预训练的视觉-语言模型(VLMs)(Liu et al., 2023; Li et al., 2024; Zhang et al., 2025a; Bai et al., 2025)来解释自然语言指令与视觉观测,展现出显著的泛化与智能潜力。然而,这些模型主要依赖视觉与语言,忽视了触觉感知所提供的丰富语义与物理反馈。现有将触觉纳入VLA框架的尝试(Zhang et al., 2025b; Huang et al., 2025; Yu et al., 2025)往往把触觉数据视为低层信号,未能在语义层面对齐视觉与语言上下文。
为弥补这一差距,我们提出OmniVTLA(视觉-触觉-语言-行动模型),一种将视觉、触觉与语言统一到共享语义空间的新型架构,如图1所示。VTLA利用对比学习,将高分辨率触觉信号与视觉和语言概念进行对齐,使机器人能够在“所见”与“所受指令”的语境下“理解”自己“所感”的触觉。具体而言,我们为触觉数据引入双编码器路径以应对异质性,分别采用预训练的视觉Transformer(ViT)与语义对齐的触觉ViT(SA-ViT)。其次,我们构建ObjTac数据集,覆盖10个类别下的56种物体,采集文本、视觉与基于力的触觉数据,共计13.5万条三模态样本。第三,我们利用跨传感器数据训练语义对齐的触觉编码器,学习统一的触觉表征,作为OmniVTLA更优的初始化。大量实验表明,VTLA优于VLA基线方法。在抓取-放置任务中,VTLA使夹爪的成功率提升21.9%至96.9%,并使灵巧手的成功率提升6.2%至100%。此外,VTLA生成更为平滑的轨迹,符合直觉原则:“在无阻情况下快速移动,仅在接触逼近时减速”。
图1 左:标准版的VLA模型,其中图像编码器通常继承经过对比学习预训练的CLIP/SigLIP主干,以实现潜在空间中的语义对齐。右:VTLA模型。关键在于,触觉编码器的设计以及视觉、语言与触觉模态之间的语义对齐迄今鲜有系统研究。
我们的贡献概括如下。
- 我们提出OmniVTLA,这一新框架对视觉、触觉与语言进行建模,面向端到端的接触密集型操作任务。OmniVTLA采用双编码器路径以克服不同触觉传感器的异质性。
- 我们发布ObjTac这一综合触觉数据集,针对10个类别的56种物体收集13.5万条三模态样本;基于该数据集,我们训练了用于OmniVTLA的语义对齐触觉编码器。
- 真实世界实验表明,OmniVTLA较典型VLA模型具有更优性能,成功率最高提升21.9%;此外,还降低了任务完成时间并使生成的轨迹更平滑。
2 Related Works
我们提出的VTLA与其他VLA模型的差异汇总见表1。
用于感知任务的触觉感知。 触觉感知的早期研究主要聚焦于处理低层物理信号(如力、振动、形变)以完成特定感知任务,例如抓取稳定性预测(Calandra et al., 2018; Cui et al., 2020)与打滑检测(Li et al., 2018)。最近的研究转向学习通用的触觉表征,以在任务、传感器与模态之间实现可迁移性。这些工作通过数据集构建(Fu et al., 2024; Cheng et al., 2025)、共享嵌入空间(Yang et al., 2024)、可迁移架构(Zhao et al., 2024)以及统一建模框架(Feng et al., 2025),展示了跨模态对齐与可泛化表征对于触觉感知的重要性。尽管这些方法提升了触觉感知能力,但仍与动作策略生成相脱耦,限制了其在机器人实时控制中的适用性。此外,大多数现有工作采用基于视觉的触觉数据(如GelSight(Yuan et al., 2017; Johnson and Adelson, 2009)),而对同样在机器人策略学习中应用广泛的基于力的触觉数据关注不足。
1. 触觉感知(Tactile Sensing for Perception Tasks)
触觉感知的研究最初集中于低层物理信号的处理与分析,主要用于特定的感知任务:抓取稳定性预测(Calandra et al., 2018; Cui et al., 2020);打滑检测(Li et al., 2018)。
进入近期阶段,研究重点逐渐转向通用触觉表征学习(general tactile representation learning),目标是在不同任务、传感器与模态之间实现表征迁移与共享。 代表性方向包括:触觉数据集构建(Fu et al., 2024; Cheng et al., 2025);共享嵌入空间学习(Yang et al., 2024);跨传感器可迁移架构(Zhao et al., 2024);统一触觉建模框架(Feng et al., 2025)。
这些工作证明了跨模态对齐和可泛化触觉表征的价值,但局限在感知层面,与动作策略生成(action policy generation)脱耦,难以用于实时机器人控制。此外,多数工作依赖视觉触觉数据(如GelSight),而基于力的触觉信息(在实际控制中更关键)研究较少。
面向操作的视觉-触觉融合。 视觉-触觉策略学习的最新进展在接触密集型操作中取得了显著突破。强化学习框架已有效地将视觉与触觉输入结合,用于装配任务(Lee et al., 2020; Hansen et al., 2022)与灵巧的手内操控(Hu et al., 2025)。近来,领域内愈发采用模仿学习范式(Yu et al., 2023; Lin et al., 2024; Huang et al., 2024; Xue et al., 2025; Liu et al., 2025),以探索用于细粒度操作的视触觉表征与系统架构。尽管这些方法在特定任务上表现出色,但与视觉-语言-行动模型相比,其语义推理与泛化能力仍然有限;这一差距正是本文希望通过视觉-触觉语义融合来弥合的。
2. 面向操作的视觉-触觉融合(Vision–Tactile Fusion for Manipulation)
随着机器人任务从“识别”转向“操作”,研究开始探讨如何将视觉与触觉联合用于策略学习(policy learning)。 主要有两类方法:强化学习方法(RL):通过联合视觉与触觉输入提升复杂操作的接触感知与控制性能,用于装配(Lee et al., 2020; Hansen et al., 2022)与灵巧手内操作(Hu et al., 2025)。模仿学习方法(IL):近年来成为主流,用于细粒度操作任务(Yu et al., 2023; Lin et al., 2024; Huang et al., 2024; Xue et al., 2025; Liu et al., 2025),学习在多模态观测下的接触表征与控制映射。
尽管这些工作显著提升了物理交互能力,但其学习范围受限于特定任务与传感器配置,缺乏语义推理与开放世界泛化能力。因此,它们与 视觉-语言-行动模型(VLA) 之间存在显著差距。
视觉-语言-行动模型。 VLA模型已成为通用型机器人策略的一种强大范式。 Brohan et al.(2023b)率先将机器人动作表示为语言token,从而实现来自网络级预训练的知识迁移。 Kim et al.(2024b)通过LoRA微调提供了高效迁移的开源替代方案。 后续工作(Team et al., 2024; Black et al., 2024; Liu et al., 2024; Bjorck et al., 2025)通过基于流或扩散的动作生成(Chi et al., 2023)进一步扩展了这些能力。 在可扩展性(Wen et al., 2025; Team et al., 2025; Shukor et al., 2025)、推理机制(Zhao et al., 2025; Lin et al., 2025)以及3D扩展(Zhen et al., 2024; Qu et al., 2025)方面的努力进一步提升了其适用性。 尽管VLA模型擅长开放世界的泛化,仅依赖视觉与语言也限制了其在需要精确物理交互的接触密集型任务中的表现。
3. 视觉-语言-行动模型(Vision–Language–Action Models, VLA)
VLA模型代表了当下**通用型机器人策略(generalist robot policy)**的发展方向。 其核心思想是:将视觉输入与语言指令映射到统一的语义空间中,再生成相应的动作输出。
关键发展脉络如下:Brohan et al. (2023b) 首次将机器人动作离散化为语言token,实现了从网络级预训练模型(如LLM)向机器人知识迁移;Kim et al. (2024b) 通过LoRA微调实现了高效迁移;Chi et al. (2023) 提出了基于**流匹配或扩散模型(flow/diffusion)**的动作生成;后续工作进一步提升了模型的可扩展性(Wen et al., 2025)、推理机制(Zhao et al., 2025)和三维理解能力(Zhen et al., 2024; Qu et al., 2025)。
VLA模型在开放世界理解上表现出强大的泛化性,但仅依赖视觉与语言输入使其在需要精确接触与力控制的操作任务中表现不足。
新近的触觉增强方法通过基于语言的传感器融合(Jones et al., 2025)、引入触觉的VLA学习(Hao et al., 2025; Zhang et al., 2025b)以及低维的力感知控制(Huang et al., 2025; Yu et al., 2025)来应对这些局限。 然而,这些方法尚未充分探索触觉编码器的设计。 我们的OmniVTLA框架通过统一的跨模态表征学习,为触觉建立双编码器路径,从而在根本上推动了这一范式的发展。
4. 触觉增强的VLA(Tactile-Enhanced VLA)
为弥补这一不足,近期研究尝试将触觉信息融入VLA框架:语言驱动的传感器融合(Jones et al., 2025);触觉增强VLA架构(Hao et al., 2025; Zhang et al., 2025b);基于力信号的低维控制策略(Huang et al., 2025; Yu et al., 2025)。
这些方法已开始探索触觉与语义的融合,但仍存在两大缺陷:触觉编码器设计单一(多为简单的卷积或MLP结构,缺乏跨模态语义约束);模态对齐机制不完善(触觉往往被视为附加输入,而非与视觉、语言平等对齐的表征)。
3 Methods
3.1 Problem Formulation
形式上,动作模型的目标是对分布 p ( A t ∣ o t ) p(\mathbf{A}_t|\mathbf{o}_t) p(At∣ot)建模,其中 A t = { a t , a t + 1 , … , a t + H − 1 } \mathbf{A}_t= \{a_t,a_{t+1},\ldots,a_{t+H-1}\} At={at,at+1,…,at+H−1}表示相应的动作序列( H \text{H} H为片段长度), o t \mathbf{o}_t ot表示当前时刻的观测。对于典型的VLA模型,观测由若干RGB图像、语言提示以及机器人本体感觉状态组成,模型可形式化为:
o t = M VLA ( A t ∣ f ϕ ( I t i ) , l t ) , ( 1 ) o_t=\mathbf{M}_{\text{VLA}}(\mathbf{A}_t|f_{\phi}(\mathbf{I}_t^{i}),l_t),\qquad(1) ot=MVLA(At∣fϕ(Iti),lt),(1)
其中 I t i \mathbf{I}_t^{i} Iti 表示第 i i i 张图像(例如第三人称视角图像与机械臂腕部视角图像), l t l_t lt 是一串语言token。通常,图像 I t i \mathbf{I}_t^{i} Iti 通过基于视觉Transformer(ViT)(Dosovitskiy et al., 2020)的对比式图像编码器 f ϕ f_{\phi} fϕ (如CLIP、SigLIP)进行编码,并与文本token一起投射到潜在嵌入空间中。
视觉编码器 f ϕ f_{\phi} fϕ(ViT/CLIP/SigLIP)ViT(Vision Transformer)将图像切成patch→线性投影→加位置信息→Transformer编码,得到图像级token/特征(Dosovitskiy
et al., 2020)。CLIP(Radford et al., 2021):图像编码器与文本编码器对比式联合训练,把“匹配的图文”在共享语义空间里拉近、把“不匹配”拉远。损失:典型InfoNCE/softmax跨批对比;相似度多用归一化后的余弦相似度。收获:学到强大的语义对齐能力(“句子←→图像”可互检索/对齐)。SigLIP(Zhai et al., 2023/2024):把CLIP的软最大对比,改为逐对sigmoid二元分类损失(多正例友好、batch负例依赖更低),对一些检索/稀疏正例场景更稳。结论:把 f ϕ f_{\phi} fϕ设为CLIP/SigLIP风格的ViT,可以把视觉token投到与文本同一语义空间,极大简化“看懂语言指令→找对视觉目标”的对齐问题。
同时,我们的VTLA模型目标是在输入中纳入触觉数据,如图2所示。VTLA模型形式化如下:
o t = M VTLA ( A t ∣ f ϕ ( I t i ) , f θ ( T t j ) , l t ) , ( 2 ) o_t=\mathbf{M}_{\text{VTLA}}(\mathbf{A}_t|f_{\phi}(\mathbf{I}_t^{i}),f_{\theta}(\mathbf{T}_t^{j}),l_t),\quad(2) ot=MVTLA(At∣fϕ(Iti),fθ(Ttj),lt),(2)
其中 T t j \mathbf{T}_t^{j} Ttj 表示第 j j j 路触觉数据,例如装配在双指夹爪指尖的触觉传感器,或灵巧手的多指与掌部触觉传感器。 f ϕ f_{\phi} fϕ 表示触觉编码器。 直观地说,触觉数据可以重映射为张量,并用类似ViT的结构按图像编码器方式进行编码,但触觉数据的特性与视觉数据存在显著差异。 在本文中,我们的目标是探索不同的触觉编码器及其相应的训练策略,以验证VTLA的最佳架构。
图2 我们提出的OmniVTLA总体概览。其为触觉数据集成了双ViT编码器,以应对视觉与触觉数据之间以及不同触觉传感器之间的固有异质性。 第一个ViT借助预训练的视觉编码器,从大规模图像数据中继承丰富的语义表征。 第二个ViT(SA-ViT)通过跨模态对比学习进行显式训练,实现触觉、视觉与文本模态之间的语义对齐。 这种双编码器设计能够在多样化传感输入间实现有效的知识迁移与一致的表征学习。
3.2 采用双编码器路径的整体架构
如图2所示,所提出的OmniVTLA构建于 π 0 \pi 0 π0(Black et al., 2024)之上,由三个核心组件构成:分词器(tokenizers)、骨干网络(backbone)与动作头(action head)。分词器负责处理:1)通过PaliGemma分词器(词表大小:257,152)处理语言指令 l t l_t lt;2)通过SigLiP模型(Zhai et al., 2023)处理图像观测 I t i \mathbf{I}_t^{i} Iti;3)处理触觉观测 T t j \mathbf{T}_t^{j} Ttj;并将所有模态投射为潜在token。
具体而言,对于包含第三人称视角与腕部视角的图像,我们将原始图像缩放至 224 × 224 224\times224 224×224,每幅图像产生256个token。对于触觉数据,我们将数据范围归一化为int8,将多传感器输入拼接成单幅图像,并将缩放至 224 × 224 224\times224 224×224的输入送入类ViT编码器以生成256个token。Gemma-2B骨干网络处理串接后的token以生成动作token;动作头依据 π 0 \pi 0 π0 使用flow matching损失进行训练以解码这些动作token。动作表征随末端执行器而异:对于双指夹爪,动作用10个token表示(3个相对位置、6个相对角度、1个夹爪状态);对于四指手,动作用25个token表示(3个相对位置、6个相对角度、16个绝对关节位置)。
现有工作对触觉编码器的设计关注不足,主要因为存在两类异质性:(1)触觉与视觉数据之间的异质性;(2)不同触觉传感器之间的异质性(如图2左上部分所示)。这一挑战还因触觉数据集特性差异而加剧,例如Touch and Go(TAG)(Yang et al., 2022)、SSVTP(Kerr et al., 2023)、ObjectFolder(Gao et al., 2021),使统一的编码器设计更加复杂。因此,值得探索四种不同的触觉编码器,具体结果见第4.2节:
- VTLA-FS:触觉编码器从零开始训练,仅依赖有限的遥操作触觉数据。
- VTLA-Pre:触觉编码器由大规模数据集的预训练视觉编码器初始化,并在少量遥操作数据上微调。
- VTLA-SA:触觉编码器先通过跨模态对比学习获得语义层面对齐(见第3.3节),再在少量数据上进行微调。
- OmniVTLA:双编码器路径,其中一路为VTLA-Pre,另一路为VTLA-SA。
触觉异质性源于不同的感知原理:视觉式触觉传感器(如GelSight(Yuan et al., 2017; Johnson and Adelson, 2009))捕获表面几何,而其他类型(如Paxini Gen2(Paxini, 2025))测量力。需要注意的是,视觉式触觉传感器通常具有更高的空间分辨率,但时间分辨率较低,通常最高约为30Hz;而基于力的传感器虽空间分辨率相对较低,却能以更高的时间分辨率捕获事件特征。因此,基于力的传感器可以更好地补充视觉模态的信息。为应对不同触觉传感器的异质性,我们提出双ViT编码器,并将其生成的token进行串接,以实现跨传感器理解;这构成了所提OmniVTLA模型的触觉编码器。
3.3 语义对齐的触觉编码器
尽管已有工作(Feng et al., 2025)探索了视觉式触觉传感器的统一表征,但它无法很好地泛化到基于力的触觉感知。如表2所示,预训练的AnyTouch编码器在基于力的数据集上的材料分类精度仅为40.21%,表明其跨传感器迁移存在严重局限。为解决这一问题,我们构建了自有数据集ObjTac,使文本、视频与基于力的触觉数据相互对齐。我们为56种不同物体采集了触觉—视觉的数据对,如图3所示。该数据集涵盖10类物体(即plastic、glass、wood、brick、metal、fabric、leather、ceramic、paper及其他),并按表面粗糙度(粗/光滑)与材料硬度(硬/软)进行分类。我们采集的数据集将很快发布。
下面说明数据采集与处理流程。1)对每个物体进行2–5次交互试验,每次持续10–60秒(采样频率60Hz),共得到270,000条力觉数据记录。同时以720P、30FPS采集第一人称视觉视频,共获得252段视频序列,平均时长18秒。总体上,我们采集了135K条触觉—视觉配对样本。2)我们为语言模态添加了物体级标注,包括物体名称、材料类型、粗糙度类别、硬度类别、视频层元数据及文字描述。3)通过时间戳进行时间同步,以对齐视觉与触觉模态。
为训练更好的语义对齐编码器,我们将自采数据加入现有数据集,采用AnyTouch(Feng et al., 2025)的第二阶段训练流程,以实现多模态与跨传感器对齐。由于我们的数据集包含三模态配对数据,对于新增数据,我们直接采用如下总对齐损失:
L a l i g n = α V L ∗ L V → L + L L → V 2 + α V T ∗ L V → T + L T → V 2 + α T L ∗ L T → L + L L → T 2 \mathcal{L}_{align}=\alpha_{VL}\ast \frac{\mathcal{L}_{V\to L}+\mathcal{L}_{L\to V}}{2}+\alpha_{VT}\ast \frac{\mathcal{L}_{V\to T}+\mathcal{L}_{T\to V}}{2} +\alpha_{TL}\ast \frac{\mathcal{L}_{T\to L}+\mathcal{L}_{L\to T}}{2} Lalign=αVL∗2LV→L+LL→V+αVT∗2LV→T+LT→V+αTL∗2LT→L+LL→T,
其中 L V → L \mathcal{L}_{V\to L} LV→L表示一个batch内“视觉到语言”的损失,参考CLIP(Radford et al., 2021); α V L , α V T , α T L \alpha_{VL},\alpha_{VT},\alpha_{TL} αVL,αVT,αTL为超参数。此外,我们还在总损失中加入了使用二元交叉熵的跨传感器匹配损失。
借助ObjTac数据集,这一语义对齐触觉编码器能更好地适配所用触觉传感器并对齐语义表征,从而将触觉信号(如材料、粗糙度、硬度)锚定在视觉与语言语境中。 如表2所示,SA-ViT在基于力的触觉数据集上取得了显著更高的分类精度,同时在视觉式触觉数据集Touch and Go上保持接近基线的表现。
4 Experiments
为什么要用触觉(tactile)?它起什么作用?
触觉信号在这个任务中的意义非常关键。我们可以从感知层面和控制层面两方面来看:
(1)感知层面:视觉无法感知接触状态RGB相机看到的表面只能提供“外观”,但在接触前后的细微变化(比如物体是否被夹紧、是否滑动)几乎看不出;特别是在遮挡(occlusion)或透明物体的场景中,视觉信息常常缺失;触觉传感器能直接感知到力的分布、接触面积、压力变化等物理信息,补足视觉的盲区。
(2)控制层面:触觉提供实时的反馈信号当夹爪接触物体时,触觉信号会突变;模型可以根据这种变化自动“知道”何时该减速、何时该停止闭合;因此能防止过夹(crushing)或夹空(slip);对于灵巧手,还能用于判断哪根手指接触到了物体,调整协调抓取动作。
举个直观例子:
想象人类抓杯子:只靠看(视觉)→ 你知道杯子在哪里;但当手碰到杯子时,你要靠触觉判断是不是夹稳、有没有滑;同理,机器人需要触觉去感知“接触事件”,调整夹持力度和运动轨迹。
4.1 Experimental Setup
基线与训练细节 我们将VTLA模型与两个模型进行比较:以Diffusion Policy(DP)(Chi et al., 2023)作为非VLM基线,以 π 0 \pi 0 π0(Black et al., 2024)作为VLA基线。我们按其代码库的默认设置训练DP与 π 0 \pi 0 π0,唯一不同是将DP的动作片段长度设为64。对于我们的OmniVTLA模型,我们增加了触觉图像输入。更多训练细节见附录。
实现与任务设置 我们的机器人系统包括一台UR5机械臂、一只带两个触觉传感器与腕部相机的夹爪、一只装有11个触觉传感器且配备腕部相机的灵巧手,以及一台底座相机(见图4)。我们在夹爪平台上对四种物体(Short Can、Square Coffee Bottle、Gum Tin、Milk Carton)执行抓取—放置任务,在灵巧手平台上对两种物体(Coffee Bottle与Milk Carton)执行相同任务(见图4),并以30Hz为每个物体采集40段遥操作示教数据。将塑料瓶与方形瓶作为未见物体用于泛化评估。我们对触觉数据进行最大—最小力归一化,并重排为三通道张量,从而得到三通道图像表示。
为研究触觉反馈在任务执行中的作用,我们设计了一个多阶段抓取流程。不同于常规方法,我们的方法最多包含三次递进式的抓取尝试。具体而言,当夹爪逼近目标物体时,会分三阶段逐步闭合,并在第三次尝试时实现稳定抓取。完成抓取后,机械臂抬升并将物体搬运至预设目标位置。为公平评估,我们用网格地图标准化物体初始位姿;对夹爪平台每个模型进行32次试运行、对灵巧手平台进行16次试运行(每个物体4个网格位置、每个初始状态2次试验)。每次试验的最大评估步数设为1500。
评估指标 我们通过两种互补方式评估方法:离线验证与真实环境实验。对于离线验证,我们计算离线预测状态与遥操作真值数据之间的均方误差(MSE):
MSE = 1 T ∑ t = 1 T ∥ x t − x ^ t ∥ 2 \text{MSE}=\frac{1}{T}\sum_{t=1}^{T}\lVert x_t-\hat{x}_t\rVert^2 MSE=T1t=1∑T∥xt−x^t∥2,
其中 T T T为总时间步, x t x_t xt(真值)与 x ^ t \hat{x}_t x^t(预测)为10维或25维状态向量,包含末端位置(xyz)、6D旋转表示(Zhou et al., 2018),以及夹爪开合量(1维)或灵巧手16个绝对关节角。在真实环境评估中,我们采用三项指标:(1)成功率(SR):在结束时刻物体被成功放置;(2)完成时间(CT):从任务开始到成功放置并打开夹爪的时间;(3)运动平滑度:轨迹中末端执行器运动方差。
4.2 评估结果
验证结果 基于遥操作驱动的验证数据进行的离线验证表明,OmniVTLA在多种物体上均展现出更优的预测性能。如图5所示,OmniVTLA在所有模型中取得最低的MSE,平均为 1.40 × 1 0 − 4 1.40\times10^{-4} 1.40×10−4。这一趋势在大多数物体上均成立:对于Short Can,相比VLA,OmniVTLA的MSE降低7.8%;对于Bottle,降幅达到23.3%。VTLA-FS出现的异常结果可能源于过拟合,这表明相比仅依赖遥操作数据,使用大规模触觉数据至关重要。结果表明,语义对齐(SA)触觉编码器能有效将触觉信号与视觉、语言线索融合,从而实现更准确的状态预测——这对精确操作至关重要。
真实环境结果 真实环境实验验证了在抓取—放置的接触场景中,OmniVTLA优于 π 0 \pi 0 π0与DP两种基线。对于使用夹爪的 π 0 \pi 0 π0(见表3),在单路触觉解码器配置下,VTLA-SA优于其他设计。其平均成功率(SR)达到87.5%,较从零训练(FS)编码器高6.3%,较预训练初始化(Pre)编码器高3.1%。当在所提OmniVTLA中结合Pre与SA两路编码器时,平均SR达到96.9%,体现了双触觉解码器设计的优势。在完成时间(CT)方面,SA编码器较VLA基线将平均步数降低26.3%(由657步降至484步),证明触觉反馈能优化操作过程。所提OmniVTLA取得次优的CT表现,将步数降低24.2%(由657步降至498步)。
对于采用四指灵巧手的 π 0 \pi 0 π0(见表4),OmniVTLA将SR提高6.2%(由93.8%至100%),同时将CT降低6%(由343步降至322步)。尤其是对于未见物体Plastic与Square,我们的方法SR达到100%,而VLA仅为87.5%。
对于DP基线(见表5),引入触觉后平均SR提升18.7%(由59.4%至78.1%),平均CT降低19.9%(由851步降至682步)。这进一步印证了不论基线为何,触觉信号都能普遍提升性能。
轨迹平滑度 触觉显著改善运动平滑度,定量结果见表6。SA编码器取得最低的平均平滑度指标( 1.04 × 1 0 − 4 1.04\times10^{-4} 1.04×10−4),较VLA基线降低89.6%。这与“空域快行、接触逼近才减速”的直觉原则一致:语义对齐的触觉反馈使机器人能更智能、细腻地调节夹爪动作,在避免接触时的突兀运动的同时缩短完成时间——这对易碎物体的处理尤为关键。
定性结果 为了理解触觉感知的有效性,我们给出一些真实实验的定性结果。语言提示为“Pick up the short can and move it to the plate”,我们可视化展示了VLA、VTLA-Pre与OmniVTLA在失败与成功情况下的案例(见图6)。VLA模型常因接触感知不足而无法抬起目标;而VTLA-Pre往往在夹爪反复调整中仍未能成功抬起。相较之下,OmniVTLA利用语义触觉线索稳定抓持并生成平滑轨迹:如夹爪成功抬起Short Can、灵巧手成功抬起Bottle等案例所示。
5 Conclusion and Future Work
我们提出OmniVTLA——一种新的视觉-触觉-语言-行动模型,并给出一个与视觉和语言模态进行语义对齐的触觉编码器。 我们提出双编码器路径以解决触觉数据的异质性问题。 此外,我们构建了ObjTac数据集,用于跨模态对比学习框架,使机器人能够在与任务相关的语境中解释触觉数据。 实验结果表明,相比最新的VLA基线方法,我们取得了显著提升:双指夹爪的成功率提高21.9%,四指灵巧手的成功率提高6.2%。 此外,OmniVTLA将完成时间缩短约24.2%,并通过触觉引导学习获得更为平滑的轨迹。 尽管当前评测的任务与机器人种类仍有限,OmniVTLA为具触觉感知的机器人操作奠定了重要基础。 未来工作将探索更复杂的任务、更高效的触觉表征,以及具有时间动态性的融合架构。
6 Appendix
6.1 Dataset and Training Details
数据集物体清单 表7给出了ObjTac数据集的完整物体清单,共包含10个类别下的56种物体。
数据采集流程 数据采集包括两个过程:触摸(Touch)与抓取(Grasp)。
在Touch过程中,每个物体被触摸2–5次,每次交互持续10–60秒(采样频率为60Hz)。 使用Python脚本记录指尖触觉传感器数据及精确时间戳,同时用Intel RealSense2相机以720p分辨率(30 FPS)同步采集第一人称RGB视频。 在全部56个物体上,该过程共获得252段视频(平均每段18秒)、135,000帧视频,以及270,000条力觉数据点。
Grasp过程旨在研究物体操作的动力学。待恢复后,将系统测试抓取成败条件与抓取后的稳定性(打滑检测)。 计划的试验包括成功抓取、失败尝试、稳定持握阶段,以及可控释放导致的滑移事件等。 所有试验将与Touch过程保持一致的数据格式,包含同步的720p视频与传感器记录。
训练细节 表8列出了各模型的训练细节。
6.2 更多结果
动作分片尺寸消融研究 图7左侧展示了不同模型的均方误差(MSE)如何受动作片段长度(10到50步)的影响。
在所有片段长度下,OmniVTLA始终呈现最低的MSE,突显其在处理序列动作依赖方面的鲁棒性。 总体趋势表明,建模更长的动作序列可使VTLA更好地预判接触动力学;而VLA在片段长度从30增至50时则出现轻微退化。
动作轨迹对比 图7右侧展示了OmniVTLA与VLA的动作轨迹对比。 结果表明,OmniVTLA在触觉丰富的操作任务中具有明显优势。 具体而言,相比基线VLA,OmniVTLA在Pick&Place任务中约减少50%的动作步数,显示出显著更高的操作效率。 更重要的是,OmniVTLA在整个过程中表现出更优的运动平滑性,一次性成功完成任务,无需纠正性调整。 相较之下,VLA的轨迹更不稳定,存在明显的波动并偶有物体掉落。 这些结果说明,引入触觉反馈可显著提升VLA在触觉丰富任务中的表现,使抓取行为更稳定、更可靠。