跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

论文笔记:OmniVTLA 视觉 - 触觉 - 语言 - 行动模型与语义对齐触觉感知

OmniVTLA 是一种引入触觉感知的视觉 - 语言 - 行动(VLA)模型架构。针对现有 VLA 忽视触觉的问题,该模型提出双路径触觉编码器框架,结合预训练 ViT 与语义对齐触觉 ViT(SA-ViT)。同时发布 ObjTac 数据集,包含 13.5 万条三模态样本。实验表明,OmniVTLA 在抓取与放置任务中成功率显著提升,夹爪达 96.9%,灵巧手达 100%,且轨迹更平滑。

安卓系统发布于 2026/4/6更新于 2026/5/2323 浏览
论文笔记:OmniVTLA 视觉 - 触觉 - 语言 - 行动模型与语义对齐触觉感知

OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing

摘要

近来的视觉 - 语言 - 行动(VLA)模型建立在视觉 - 语言方法之上,已取得有前景的结果,并展现了在机器人操作任务上实现任务泛化的可能性。然而,由于触觉传感器的异质性以及触觉数据采集的困难,现有 VLA 模型显著忽视了触觉感知的重要性,并在接触密集型任务中表现不佳。为解决这一问题,本文提出 OmniVTLA,这是一种引入触觉感知的新型架构。

具体贡献如下:

  1. 双路径触觉编码器框架:通过使用预训练的视觉 Transformer(ViT)与语义对齐的触觉 ViT(SA-ViT),提升了对多种视觉式与力觉式触觉传感器的感知能力。
  2. ObjTac 数据集:基于力觉的综合触觉数据集,覆盖 10 个类别下的 56 种物体,包含 13.5 万条三模态样本。
  3. 语义对齐触觉编码器:训练统一的触觉表征,作为 OmniVTLA 更优的初始化。

真实环境实验显示,相比最新 VLA 基线方法,OmniVTLA 在抓取与放置任务中取得了显著提升:使用夹爪时成功率达 96.9%(较基线高 21.9%),使用灵巧手时成功率达 100%(较基线高 6.2%)。此外,借助触觉感知显著降低了任务完成时间,并生成更为平滑的运动轨迹。

引言

触觉感知是人类灵巧度的基础,使人类能够以惊人的精度与适应性完成复杂任务。尽管视觉提供了全局空间上下文,触觉感知却具有互补优势:能够直接测量接触动力学(如压力分布、纹理),对视觉遮挡具有鲁棒性,并提供用于实时控制的高频反馈。

在机器人领域,视觉与触觉传感的融合已成为提升操作能力的一个前景方向。早期的工作侧重于小规模模型,将视觉与触觉特征结合用于特定任务。近期的视觉 - 语言 - 行动(VLA)模型正在变革机器人操作领域,利用大规模预训练的视觉 - 语言模型来解释自然语言指令与视觉观测。然而,这些模型主要依赖视觉与语言,忽视了触觉感知所提供的丰富语义与物理反馈。

为弥补这一差距,我们提出 OmniVTLA(视觉 - 触觉 - 语言 - 行动模型),一种将视觉、触觉与语言统一到共享语义空间的新型架构。VTLA 利用对比学习,将高分辨率触觉信号与视觉和语言概念进行对齐。具体而言,我们为触觉数据引入双编码器路径以应对异质性,分别采用预训练的视觉 Transformer(ViT)与语义对齐的触觉 ViT(SA-ViT)。其次,构建 ObjTac 数据集,采集文本、视觉与基于力的触觉数据。第三,利用跨传感器数据训练语义对齐的触觉编码器。

大量实验表明,VTLA 优于 VLA 基线方法。在抓取 - 放置任务中,VTLA 使夹爪的成功率提升 21.9% 至 96.9%,并使灵巧手的成功率提升 6.2% 至 100%。此外,VTLA 生成更为平滑的轨迹。

相关工作

用于感知任务的触觉感知

触觉感知的早期研究主要聚焦于处理低层物理信号(如力、振动、形变)以完成特定感知任务,例如抓取稳定性预测与打滑检测。最近的研究转向学习通用的触觉表征,以在任务、传感器与模态之间实现可迁移性。这些工作通过数据集构建、共享嵌入空间、可迁移架构以及统一建模框架,展示了跨模态对齐与可泛化表征对于触觉感知的重要性。尽管这些方法提升了触觉感知能力,但仍与动作策略生成相脱耦,限制了其在机器人实时控制中的适用性。此外,大多数现有工作采用基于视觉的触觉数据,而对同样在机器人策略学习中应用广泛的基于力的触觉数据关注不足。

面向操作的视觉 - 触觉融合

视觉 - 触觉策略学习的最新进展在接触密集型操作中取得了显著突破。强化学习框架已有效地将视觉与触觉输入结合,用于装配任务与灵巧的手内操控。近来,领域内愈发采用模仿学习范式,以探索用于细粒度操作的视触觉表征与系统架构。尽管这些方法在特定任务上表现出色,但与视觉 - 语言 - 行动模型相比,其语义推理与泛化能力仍然有限。

视觉 - 语言 - 行动模型

VLA 模型已成为通用型机器人策略的一种强大范式。Brohan et al. 率先将机器人动作表示为语言 token,从而实现从网络级预训练的知识迁移。后续工作通过基于流或扩散的动作生成进一步扩展了这些能力。尽管 VLA 模型擅长开放世界的泛化,仅依赖视觉与语言也限制了其在需要精确物理交互的接触密集型任务中的表现。

新近的触觉增强方法通过基于语言的传感器融合、引入触觉的 VLA 学习以及低维的力感知控制来应对这些局限。然而,这些方法尚未充分探索触觉编码器的设计。我们的 OmniVTLA 框架通过统一的跨模态表征学习,为触觉建立双编码器路径,从而在根本上推动了这一范式的发展。

方法

问题形式化

形式上,动作模型的目标是对分布 $p(\mathbf{A}_t|\mathbf{o}t)$ 建模,其中 $\mathbf{A}t= {a_t,a{t+1},\ldots,a{t+H-1}}$ 表示相应的动作序列,$\mathbf{o}_t$ 表示当前时刻的观测。对于典型的 VLA 模型,观测由若干 RGB 图像、语言提示以及机器人本体感觉状态组成,模型可形式化为:

$$o_t=\mathbf{M}_{\text{VLA}}(\mathbf{A}t|f{\phi}(\mathbf{I}_t^{i}),l_t)$$

其中 $\mathbf{I}_t^{i}$ 表示第 i 张图像,$l_t$ 是一串语言 token。通常,图像通过基于视觉 Transformer(ViT)的对比式图像编码器进行编码,并与文本 token 一起投射到潜在嵌入空间中。

同时,我们的 VTLA 模型目标是在输入中纳入触觉数据,如图 2 所示。VTLA 模型形式化如下:

$$o_t=\mathbf{M}_{\text{VTLA}}(\mathbf{A}t|f{\phi}(\mathbf{I}t^{i}),f{\theta}(\mathbf{T}_t^{j}),l_t)$$

其中 $\mathbf{T}_t^{j}$ 表示第 j 路触觉数据。直观地说,触觉数据可以重映射为张量,并用类似 ViT 的结构按图像编码器方式进行编码,但触觉数据的特性与视觉数据存在显著差异。

采用双编码器路径的整体架构

所提出的 OmniVTLA 构建于 $\pi_0$ 之上,由三个核心组件构成:分词器、骨干网络与动作头。分词器负责处理语言指令、图像观测及触觉观测,并将所有模态投射为潜在 token。

具体而言,对于包含第三人称视角与腕部视角的图像,我们将原始图像缩放至 224×224,每幅图像产生 256 个 token。对于触觉数据,我们将数据范围归一化为 int8,将多传感器输入拼接成单幅图像,并将缩放至 224×224 的输入送入类 ViT 编码器以生成 256 个 token。Gemma-2B 骨干网络处理串接后的 token 以生成动作 token;动作头依据 $\pi_0$ 使用 flow matching 损失进行训练以解码这些动作 token。

现有工作对触觉编码器的设计关注不足,主要因为存在两类异质性:(1)触觉与视觉数据之间的异质性;(2)不同触觉传感器之间的异质性。因此,值得探索四种不同的触觉编码器:

  • VTLA-FS:触觉编码器从零开始训练。
  • VTLA-Pre:触觉编码器由大规模数据集的预训练视觉编码器初始化。
  • VTLA-SA:触觉编码器先通过跨模态对比学习获得语义层面对齐,再微调。
  • OmniVTLA:双编码器路径,其中一路为 VTLA-Pre,另一路为 VTLA-SA。
语义对齐的触觉编码器

尽管已有工作探索了视觉式触觉传感器的统一表征,但它无法很好地泛化到基于力的触觉感知。为解决这一问题,我们构建了自有数据集 ObjTac,使文本、视频与基于力的触觉数据相互对齐。该数据集涵盖 10 类物体,并按表面粗糙度与材料硬度进行分类。

数据采集与处理流程:

  1. 对每个物体进行 2–5 次交互试验,每次持续 10–60 秒,共得到 270,000 条力觉数据记录。同时采集第一人称视觉视频。
  2. 为语言模态添加物体级标注,包括物体名称、材料类型等。
  3. 通过时间戳进行时间同步,以对齐视觉与触觉模态。

为训练更好的语义对齐编码器,采用 AnyTouch 的第二阶段训练流程,以实现多模态与跨传感器对齐。总对齐损失公式如下:

$$\mathcal{L}{align}=\alpha{VL}* \frac{\mathcal{L}{V\to L}+\mathcal{L}{L\to V}}{2}+\alpha_{VT}* \frac{\mathcal{L}{V\to T}+\mathcal{L}{T\to V}}{2} +\alpha_{TL}* \frac{\mathcal{L}{T\to L}+\mathcal{L}{L\to T}}{2}$$

借助 ObjTac 数据集,这一语义对齐触觉编码器能更好地适配所用触觉传感器并对齐语义表征,从而将触觉信号锚定在视觉与语言语境中。

实验

为什么要用触觉?

触觉信号在这个任务中的意义非常关键。我们可以从感知层面和控制层面两方面来看:

  1. 感知层面:视觉无法感知接触状态,特别是在遮挡或透明物体的场景中,视觉信息常常缺失;触觉传感器能直接感知到力的分布、接触面积、压力变化等物理信息,补足视觉的盲区。
  2. 控制层面:触觉提供实时的反馈信号,当夹爪接触物体时,触觉信号会突变;模型可以根据这种变化自动知道何时该减速、何时该停止闭合;因此能防止过夹或夹空。
实验设置

基线与训练细节:将 VTLA 模型与 Diffusion Policy(DP)作为非 VLM 基线,以 $\pi_0$ 作为 VLA 基线进行比较。

实现与任务设置:机器人系统包括 UR5 机械臂、带触觉传感器与腕部相机的夹爪、装有 11 个触觉传感器且配备腕部相机的灵巧手。在夹爪平台上对四种物体执行抓取—放置任务,在灵巧手平台上对两种物体执行相同任务。

评估指标:离线验证计算均方误差(MSE);真实环境评估采用成功率(SR)、完成时间(CT)及运动平滑度三项指标。

评估结果

验证结果:基于遥操作驱动的验证数据进行的离线验证表明,OmniVTLA 在多种物体上均展现出更优的预测性能。OmniVTLA 在所有模型中取得最低的 MSE,平均为 $1.40\times10^{-4}$。结果表明,语义对齐(SA)触觉编码器能有效将触觉信号与视觉、语言线索融合。

真实环境结果:真实环境实验验证了在抓取—放置的接触场景中,OmniVTLA 优于 $\pi_0$ 与 DP 两种基线。

  • 对于使用夹爪的 $\pi_0$,OmniVTLA 平均 SR 达到 96.9%,体现了双触觉解码器设计的优势。
  • 对于采用四指灵巧手的 $\pi_0$,OmniVTLA 将 SR 提高 6.2% 至 100%。
  • 对于 DP 基线,引入触觉后平均 SR 提升 18.7%。

轨迹平滑度:触觉显著改善运动平滑度,SA 编码器取得最低的平均平滑度指标,较 VLA 基线降低 89.6%。这与'空域快行、接触逼近才减速'的直觉原则一致。

定性结果:VLA 模型常因接触感知不足而无法抬起目标;而 OmniVTLA 利用语义触觉线索稳定抓持并生成平滑轨迹。

结论与未来工作

我们提出 OmniVTLA——一种新的视觉 - 触觉 - 语言 - 行动模型,并给出一个与视觉和语言模态进行语义对齐的触觉编码器。我们提出双编码器路径以解决触觉数据的异质性问题。此外,我们构建了 ObjTac 数据集。实验结果表明,相比最新的 VLA 基线方法,我们取得了显著提升。未来工作将探索更复杂的任务、更高效的触觉表征,以及具有时间动态性的融合架构。

附录

数据集与训练细节

数据集物体清单:ObjTac 数据集共包含 10 个类别下的 56 种物体。

数据采集流程:包括触摸(Touch)与抓取(Grasp)两个过程。Touch 过程中记录指尖触觉传感器数据及精确时间戳,同步采集第一人称 RGB 视频。Grasp 过程旨在研究物体操作的动力学。

训练细节:各模型的训练细节见相关表格。

更多结果

动作分片尺寸消融研究:在不同片段长度下,OmniVTLA 始终呈现最低的 MSE,突显其在处理序列动作依赖方面的鲁棒性。

动作轨迹对比:OmniVTLA 在触觉丰富的操作任务中具有明显优势,约减少 50% 的动作步数,显示出显著更高的操作效率。更重要的是,OmniVTLA 在整个过程中表现出更优的运动平滑性。

目录

  1. OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing
  2. 摘要
  3. 引言
  4. 相关工作
  5. 用于感知任务的触觉感知
  6. 面向操作的视觉 - 触觉融合
  7. 视觉 - 语言 - 行动模型
  8. 方法
  9. 问题形式化
  10. 采用双编码器路径的整体架构
  11. 语义对齐的触觉编码器
  12. 实验
  13. 为什么要用触觉?
  14. 实验设置
  15. 评估结果
  16. 结论与未来工作
  17. 附录
  18. 数据集与训练细节
  19. 更多结果
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 开源模型 Mistral 与 Qwen Prompt 实验报告
  • 跨平台文件传输:WebDAV + Rclone
  • Swift 自定义 UINavigationController 侧滑返回手势
  • Kafka ISR 与 AR 深度解析:副本同步机制核心概念
  • Vercel Labs Skills:AI 编程代理技能管理 CLI 工具
  • MacBook 安装 nvm 管理 Node.js 多版本教程
  • Stable Diffusion 提示词使用指南
  • LeetCode 390 消除游戏 Swift 算法解析
  • MATLAB 2025a 发布:深色模式与 Copilot 编程助手上线
  • C++ string 类详解:构造、遍历与常用操作
  • 拆解机器人底盘 DDSM400 钕强磁外转子 65mm 伺服轮毂电机
  • Stable Diffusion 3.5 FP8 本地部署与实战指南
  • 云电脑 AIGC 性能实测:ToDesk、顺网云与青椒云对比
  • 解决 Claude Code VS Code 扩展在 Windows 无法检测 Git Bash 的问题
  • Spring AI 接入 Agent Skill 实战教程
  • 在 macOS 与 Apple Silicon 上安装 ComfyUI
  • 在 WSL2 Ubuntu 上部署 llama.cpp
  • Docker Desktop 中文界面设置指南
  • Linux 文件内容查看与文本处理实用指南
  • GitHub Copilot 配置最佳实践

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online