端到端多模态 Transformer 视频对象分割 MTTR 方法解析

综述由AI生成端到端多模态 Transformer 视频对象分割 MTTR 方法将 RVOS 任务建模为序列预测问题，利用单一多模态变换器同时处理文本和视频帧。该方法无需文本相关的归纳偏差组件及掩码精炼后处理，显著简化了流程。实验显示 MTTR 在 A2D-Sentences 和 JHMDB-Sentences 数据集上 mAP 分别提升 5.7 和 5.0，处理速度达 76 帧/秒，并在 Refer-YouTube-VOS 验证集表现强劲，超越现有最先进方法。

咸鱼开飞机发布于 2025/2/7更新于 2026/6/1125 浏览

摘要

参考视频对象分割任务（RVOS）涉及在给定视频的帧中对文本参考的对象实例进行分割。由于这一多模态任务的复杂性，它结合了文本推理、视频理解、实例分割和跟踪，现有的方法通常依赖于复杂的流程来解决这个问题。本文提出了一种基于变换器的简单 RVOS 方法。作者的框架称为多模态跟踪变换器（MTTR），将 RVOS 任务建模为一个序列预测问题。基于计算机视觉和自然语言处理的最新进展，MTTR 的核心理念是视频和文本可以通过单一的多模态变换器模型有效且优雅地一起处理。MTTR 是端到端可训练的，免于文本相关的归纳偏差组件，并且不需要额外的掩码精炼后处理步骤。因此，与现有方法相比，它显著简化了 RVOS 流程。在标准基准上的评估表明，MTTR 在多个指标上显著优于之前的研究成果。特别是，MTTR 在 A2D-Sentences 和 JHMDB-Sentences 数据集上分别显示出令人印象深刻的 +5.7 和 +5.0 的 mAP 提升，同时处理速度为每秒 76 帧。此外，在 Refer-YouTube-VOS 的公共验证集上报告了强劲的结果，这是一个更具挑战性的 RVOS 数据集，尚未受到研究人员的关注。

背景与动机

基于注意力的深度神经网络在不同领域的各种任务上表现出色，从计算机视觉到自然语言处理。这些进展使得这类网络，如变换器（Transformer），成为解决多模态问题的特别有趣的候选者。依靠自注意力机制，它允许序列中的每个标记全局聚合来自每个其他标记的信息，变换器在建模全局依赖性方面表现出色，已成为大多数 NLP 任务的基石。变换器也开始在解决计算机视觉任务方面显示出前景，从识别到目标检测，甚至在作为通用视觉主干方面超越了长期使用的 CNN。

参考视频对象分割任务（RVOS）涉及在给定视频的帧中对文本参考的对象实例进行分割。与参考图像分割任务（RIS）相比，其中对象主要通过外观被引用，在 RVOS 中，对象也可以通过它们执行的动作或参与的活动被引用。这使得 RVOS 比 RIS 难得多，因为引用动作的文本表达通常不能从单一静态帧中正确推断出来。此外，与基于图像的对应物不同，RVOS 方法可能需要在多个帧中建立被引用对象的数据关联（跟踪），以处理诸如遮挡或运动模糊等干扰。

为了解决这些挑战并有效地将视频与文本对齐，现有的 RVOS 方法通常依赖于复杂的流程。相比之下，作者提出了一种简单的端到端基于变换器的 RVOS 方法。利用变换器在文本特征提取、视觉特征提取和目标检测方面的最新进展，作者开发了一个显著优于现有方法的框架。为了实现这一点，使用单一的多模态变换器，并将任务建模为序列预测问题。给定一个视频和一个文本查询，该模型会生成视频中所有对象的预测序列，然后确定文本引用的对象。此外，该方法不包含与文本相关的归纳偏差模块，并使用简单的交叉熵损失来对齐视频和文本。因此，它比之前的方法要简单得多。

图 1. 给定一个文本查询和一系列视频帧，所提出的模型在确定被参考的实例之前，会为视频中的所有对象实例输出预测序列。这里，具有相同颜色和形状的预测属于同一序列，并关注不同帧中的同一对象实例。请注意，不同帧中实例预测的顺序保持不变。最好以彩色查看。

所提出的流程在图 1 中有示意图。首先，使用基于变换器的标准文本编码器从文本查询中提取语言特征，并使用时空编码器从视频帧中提取视觉特征。然后将特征传递到多模态变换器，它输出多个对象预测序列。接下来，为了确定哪个预测序列最符合被引用的对象，为每个序列计算一个文本参考分数。为此，提出了一个时间片段投票方案，使模型在做出决定时能够专注于视频的更相关部分。

主要贡献如下：

提出了一个基于变换器的 RVOS 框架，称为多模态跟踪变换器（MTTR），它将任务建模为并行序列预测问题，并在选定文本引用的对象之前输出视频中所有对象的预测。
序列选择策略基于时间片段投票方案，这是一种新颖的推理方案，使模型能够根据文本关注视频中更相关的部分。
提出的方法可以端到端训练，不包含与文本相关的归纳偏差模块，不需要额外的掩码精炼。因此，与现有方法相比，它大大简化了 RVOS 流程。
彻底评估了作者的方法。在 A2D 标准上，也在 Refer-YouTube-VOS 的公共验证集上展示了强劲的结果，这是一个具有挑战性的数据集，尚未在文献中受到关注。

方法架构

图 2. MTTR 的详细概述。首先，输入文本和视频帧通过特征编码器传递，然后合并成多模态序列（每个帧一个）。接着，多模态变换器对特征关系进行编码，并将实例级特征解码成一组预测序列。接下来，生成相应的掩码和参考预测序列。最后，预测序列与真实序列进行匹配，用于监督（在训练中）或用于生成最终预测（在推理过程中）。

卓越性能

图 3. MTTR 在 Refer-YouTube-VOS 验证集上的性能的可视化示例。

总结

作者介绍了 MTTR，这是一种基于变换器的简单方法，用于解决 RVOS 任务，并将该任务建模为一个序列预测问题。端到端的方法通过在单一多模态变换器中同时处理文本和视频帧，大大简化了现有的 RVOS 流程。在标准基准上的广泛评估表明，该方法在很大程度上超越了现有的最先进方法（例如，在 A2D-Sentences 上提高了 5.7mAP）。作者希望自己的工作能够启发其他人看到变换器在解决复杂多模态任务方面的潜力。

学术地址：https://arxiv.org/pdf/2111.14821 代码地址：https://github.com/mttr2021/MTTR

端到端多模态 Transformer 视频对象分割 MTTR 方法解析

摘要

背景与动机

方法架构

卓越性能

总结

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

端到端多模态 Transformer 视频对象分割 MTTR 方法解析

摘要

背景与动机

方法架构

卓越性能

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具