论文笔记：OmniVTLA 视觉 - 触觉 - 语言 - 行动模型与语义对齐触觉感知

OmniVTLA 是一种引入触觉感知的视觉 - 语言 - 行动（VLA）模型架构。针对现有 VLA 忽视触觉的问题，该模型提出双路径触觉编码器框架，结合预训练 ViT 与语义对齐触觉 ViT（SA-ViT）。同时发布 ObjTac 数据集，包含 13.5 万条三模态样本。实验表明，OmniVTLA 在抓取与放置任务中成功率显著提升，夹爪达 96.9%，灵巧手达 100%，且轨迹更平滑。

安卓系统发布于 2026/4/6更新于 2026/5/2323 浏览

OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing

摘要

近来的视觉 - 语言 - 行动（VLA）模型建立在视觉 - 语言方法之上，已取得有前景的结果，并展现了在机器人操作任务上实现任务泛化的可能性。然而，由于触觉传感器的异质性以及触觉数据采集的困难，现有 VLA 模型显著忽视了触觉感知的重要性，并在接触密集型任务中表现不佳。为解决这一问题，本文提出 OmniVTLA，这是一种引入触觉感知的新型架构。

具体贡献如下：

双路径触觉编码器框架：通过使用预训练的视觉 Transformer（ViT）与语义对齐的触觉 ViT（SA-ViT），提升了对多种视觉式与力觉式触觉传感器的感知能力。
ObjTac 数据集：基于力觉的综合触觉数据集，覆盖 10 个类别下的 56 种物体，包含 13.5 万条三模态样本。
语义对齐触觉编码器：训练统一的触觉表征，作为 OmniVTLA 更优的初始化。

真实环境实验显示，相比最新 VLA 基线方法，OmniVTLA 在抓取与放置任务中取得了显著提升：使用夹爪时成功率达 96.9%（较基线高 21.9%），使用灵巧手时成功率达 100%（较基线高 6.2%）。此外，借助触觉感知显著降低了任务完成时间，并生成更为平滑的运动轨迹。

引言

触觉感知是人类灵巧度的基础，使人类能够以惊人的精度与适应性完成复杂任务。尽管视觉提供了全局空间上下文，触觉感知却具有互补优势：能够直接测量接触动力学（如压力分布、纹理），对视觉遮挡具有鲁棒性，并提供用于实时控制的高频反馈。

在机器人领域，视觉与触觉传感的融合已成为提升操作能力的一个前景方向。早期的工作侧重于小规模模型，将视觉与触觉特征结合用于特定任务。近期的视觉 - 语言 - 行动（VLA）模型正在变革机器人操作领域，利用大规模预训练的视觉 - 语言模型来解释自然语言指令与视觉观测。然而，这些模型主要依赖视觉与语言，忽视了触觉感知所提供的丰富语义与物理反馈。

为弥补这一差距，我们提出 OmniVTLA（视觉 - 触觉 - 语言 - 行动模型），一种将视觉、触觉与语言统一到共享语义空间的新型架构。VTLA 利用对比学习，将高分辨率触觉信号与视觉和语言概念进行对齐。具体而言，我们为触觉数据引入双编码器路径以应对异质性，分别采用预训练的视觉 Transformer（ViT）与语义对齐的触觉 ViT（SA-ViT）。其次，构建 ObjTac 数据集，采集文本、视觉与基于力的触觉数据。第三，利用跨传感器数据训练语义对齐的触觉编码器。

大量实验表明，VTLA 优于 VLA 基线方法。在抓取 - 放置任务中，VTLA 使夹爪的成功率提升 21.9% 至 96.9%，并使灵巧手的成功率提升 6.2% 至 100%。此外，VTLA 生成更为平滑的轨迹。

方法

问题形式化

形式上，动作模型的目标是对分布 $p(\mathbf{A}_t|\mathbf{o}t)$ 建模，其中 $\mathbf{A}t= {a_t,a{t+1},\ldots,a{t+H-1}}$ 表示相应的动作序列，$\mathbf{o}_t$ 表示当前时刻的观测。对于典型的 VLA 模型，观测由若干 RGB 图像、语言提示以及机器人本体感觉状态组成，模型可形式化为：

论文笔记：OmniVTLA 视觉 - 触觉 - 语言 - 行动模型与语义对齐触觉感知

安卓系统发布于 2026/4/6更新于 2026/5/2323 浏览

OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing

摘要

具体贡献如下：

双路径触觉编码器框架：通过使用预训练的视觉 Transformer（ViT）与语义对齐的触觉 ViT（SA-ViT），提升了对多种视觉式与力觉式触觉传感器的感知能力。
ObjTac 数据集：基于力觉的综合触觉数据集，覆盖 10 个类别下的 56 种物体，包含 13.5 万条三模态样本。
语义对齐触觉编码器：训练统一的触觉表征，作为 OmniVTLA 更优的初始化。

论文笔记：OmniVTLA 视觉 - 触觉 - 语言 - 行动模型与语义对齐触觉感知