Video-GroundingDino论文解读

Video-GroundingDino论文解读

文章目录


前言

之前我在博客介绍了一篇grounding DINO文章,该篇文章只是用于图像定位检测的open-vocabulary内容。最近,偶然看到一篇video grounding DINO文章,该篇文章解决视频相关定位,视频Grounding旨在定位视频中与输入文本查询相对应的时空部分。本文通过引入开放词汇时空视频Grounding任务,解决了当前视频Grounding方法中的一个关键限制。直白说,作者使用时空方式实现视频open-vocablary任务。我将在本博客分享我的见解,若有错误之处,欢迎指正。


一、摘要

视频Grounding旨在定位视频中与输入文本查询相对应的时空部分。本文通过引入开放词汇时空视频Grounding任务,解决了当前视频Grounding方法中的一个关键限制。 与由于训练数据和预定义词汇有限而难以应对开放词汇场景的流行封闭集方法不同,我们的模型利用基础空间基础模型的预训练表示。 这使其能够有效地弥合自然语言和多样化视觉内容之间的语义差距,在封闭式和开放式词汇环境中实现强劲的性能。 我们的贡献包括一种新颖的时空视频基础模型,在多个数据集的封闭集评估中超越了最先进的结果,并在开放词汇场景中展示了卓越的性能。 值得注意的是,所提出的模型在 VidSTG(陈述式和疑问式)和 HC-STVG(V1 和 V2)数据集的封闭集设置中优于最先进的方法。 此外,在 HC-STVG V1 和 YouCook-Interactions 的开放词汇评估中,我们的模型超越了最近表现最好的模型 4.26 m_vIoU 和 1.83% 的准确率,证明了其在处理不同语言和视觉概念以提高视频理解方面的功效。

www.zeeklog.com - Video-GroundingDino论文解读

二、引言

时空视频定位是链接视觉内容和语言描述的中枢,这促使视觉数据的语义理解。先前在视觉定位的方法如TubeDETR/STCAT和STVGFormer主要聚焦在closed-set数据,模型在这些带有预定义类别和详细注释的数据集中训练。尽管这些模型在VidSTG和HC-STVG closed-set数据集表现state-of-the-art,但模型在训练集之外泛化表现面临挑战。现有视频数据集规模小与受限多样性样本阻碍模型适应看不见unseen的场景。

现有监督方法又受有限vocabulary(类别)的闭集限制。作者也调研了open-vocabulary的时空视频定位方法。与传统惯例不一样,时空视频定位任务意解决多样性语言与视觉概念的视频定位是一个挑战。主要目的是在一系列有类别标注的数据与使用open-vocabulary方法生成unseen目标训练模型。为此,本文探讨了开放词汇视频基础所固有的挑战和机遇,为更强大和通用的视频理解奠定了基础。

作者又说,训练一个有效的open-vocabulary的视频定位需要大量带有丰富自然语言表达和对应时空定位数据集,这样数据能是模型学习通用视觉和文本特征去处理样本外的分布预测(zero-shot),可更好泛化。我们们受到基准方法启发,特别是空间定位方法。我们目的是结合预训练表征去增强视频定位。我们方法需是时空视频定位模型能像DETR架构一样通过空间回归模块增强。

三、贡献

1、我们评估时空定位模型,在HC-STVG V1与YouCook-interactions的zero-shot。我们模型超过最先进的TubeDETR与STCAT分别4.26的m_vIoU和1.83% accuracy。
2、结合空间定位优势与video-specific adapter互补,我们方法表现优异在四个closed-set数据集中。i.e.,VidSTG (Declarative) [32], VidSTG (Interrogative) [32],HC-STVG V1 [24] and HC-STVG V2 [24]

注:我觉得比较重要,也是贡献1说的时空定位模型结构,该篇文章也是提出编解码模块,处理时空融合。

四、模型结构

1、模型定义与问题

数据少问题

文章也说了对于数据少的问题,受空间定位方法启发,我们用空间grounding方法从有限的训练样本中生成表征去增强视频grounding的弱表征。原文如下说明:

To solve this problem, our approach takes inspirationfrom recent spatial grounding methods [4, 8, 12, 14, 29],which have strong open-vocabulary performance thanks to the large image-text corpus they are trained on. We can utilize the generalized representations of these models to enrich the weaker representation of video-grounding approaches obtained from the limited number of training samples. Our approach aims to leverage the strong pretrained representations of spatial grounding methods to achieve strong closed-set supervised and open-vocabulary video grounding performance 

个人觉得作者并没有说清楚,数据少问题的处理

模型解决问题

spatio-temporal video grounding任务通过在视频序列中整合时间与空间信息涉及定位、识别目标和行为。与空间定位对应,它只聚焦一帧的定位、识别、行为,少了时间维度。这意味需要随时间移动理解每一帧目标位置或行为。

模型模块

作者提出类似DETR设计的时空视频定位模型,我们时空视频定位方法是基于DETR的DINO检测器,也借助了GLIP与Grounding DINO的图像文本校准概念,如下论文描述。

 Our proposed spatio-temporal video grounding method uses DETR-like [1] design, with temporal aggregation and adaptation modules for learning video-specific representations. nce. Our spatio-temporal video grounding approach is based on the state-of-the-art DETRbased [1] object detection framework DINO [31] and also borrows concepts of image-text alignment and grounding from Grounded Language-Image Pre-training (GLIP) [10] and Grounding DINO [12]. 

2、模型结构

模型结构图

作者论文描述,文本与图像编码分别使用bert与swin-transformer,随后使用交叉多模态注意力机制编码,在解码时使用文本指导query,并也使用交叉多模态注意力机制解码。

www.zeeklog.com - Video-GroundingDino论文解读


整个架构:我们提出视频定位架构。它有视觉文本编码生成视觉文本特征。一个时空编码交叉模态模块融合时空维度与视觉文本模态信息。一个语言指导查询selction模块初始化交叉模态query(类似learn query)。一个时空解码交叉模态模块当融合信息来自视觉文本特征时解码queries。最终2个预测头预测每一帧的box和时间tube。火符号是学习模块、冰符号是冻结模块。

Cross-Modality Spatio-Temporal Encoder

作者解释获得视频特征与文本特征之间在不同帧间既没有多模态交互信息也没有时间依赖信息。因此,作者在不同时间帧中使用交叉多模态时空信息编码去学习交叉模态特征。对于视频特征,作者使用多头self-attention在时间维度编码,随后使用Deformable Attention在空间维度编码;对于文本特征,也采用同视频特征一样的方法。然后融合这2个特征类似GLIP方法。

www.zeeklog.com - Video-GroundingDino论文解读

Language-Guided Query Selection

该模块旨在选择与输入文本更相关的特征作为解码器query,以实现有效的语言视觉融合。使用正余弦位置编码,类似DETR可学习query方式。

www.zeeklog.com - Video-GroundingDino论文解读

Cross-Modality Spatio-Temporal Decoder

非常感觉类似DETR方法,使用query解码获得bounding box和开始或结束帧,然后做了一系列transformer等方式变化到可被head接收解码格式。

www.zeeklog.com - Video-GroundingDino论文解读

Prediction Heads

最终输出使用多层MLP方式实现。

www.zeeklog.com - Video-GroundingDino论文解读

总结

本篇文章是如何使用类似Groundin DINO进一步实现视频的时空定位,多了时间维度。作者提出,如何空间融合与时间融合的模块。但文章并没详细描述时间融合细节与处理视频数据少的问题。整体来说,本篇文章就是多了时间维度的open-vocabulary方法,是可值得借鉴的。

今天(2024,-1-16)偶然看到一个公众号解读此论文,我将链接给出:https://mp.weixin.qq.com/s/bPBYHKRi1Fg_BMx5WaMsYg

Read more

最新电子电气架构(EEA)调研-3

而新一代的强实时性、高确定性,以及满足CAP定理的同步分布式协同技术(SDCT),可以实现替代TSN、DDS的应用,且此技术已经在无人车辆得到验证,同时其低成本学习曲线、无复杂二次开发工作,将开发人员的劳动强度、学习曲线极大降低,使开发人员更多的去完成算法、执行器功能完善。 五、各大车厂的EEA 我们调研策略是从公开信息中获得各大车厂的EEA信息,并在如下中进行展示。 我们集中了华为、特斯拉、大众、蔚来、小鹏、理想、东风(岚图)等有代表领先性的车辆电子电气架构厂商。        1、华为 图12 华为的CCA电子电气架构              (1)华为“计算+通信”CC架构的三个平台                         1)MDC智能驾驶平台;                         2)CDC智能座舱平台                         3)VDC整车控制平台。        联接指的是华为智能网联解决方案,解决车内、车外网络高速连接问题,云服务则是基于云计算提供的服务,如在线车主服务、娱乐和OTA等。 华

By Ne0inhk
Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践

Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践

Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践 文章目录 * Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践 * Apache IoTDB 核心特性与价值 * Apache IoTDB 监控面板完整部署方案 * 安装步骤 * 步骤一:IoTDB开启监控指标采集 * 步骤二:安装、配置Prometheus * 步骤三:安装grafana并配置数据源 * 步骤四:导入IoTDB Grafana看板 * TimechoDB(基于 Apache IoTDB)增强特性 * 总结与应用场景建议 Apache IoTDB 核心特性与价值 Apache IoTDB 专为物联网场景打造的高性能轻量级时序数据库,以 “设备 - 测点” 原生数据模型贴合物理设备与传感器关系,通过高压缩算法、百万级并发写入能力和毫秒级查询响应优化海量时序数据存储成本与处理效率,同时支持边缘轻量部署、

By Ne0inhk
SQL Server 2019安装教程(超详细图文)

SQL Server 2019安装教程(超详细图文)

SQL Server 介绍) SQL Server 是由 微软(Microsoft) 开发的一款 关系型数据库管理系统(RDBMS),支持结构化查询语言(SQL)进行数据存储、管理和分析。自1989年首次发布以来,SQL Server 已成为企业级数据管理的核心解决方案,广泛应用于金融、电商、ERP、CRM 等业务系统。它提供高可用性、安全性、事务处理(ACID)和商业智能(BI)支持,并支持 Windows 和 Linux 跨平台部署。 一、获取 SQL Server 2019 安装包 1. 官方下载方式 前往微软官网注册账号后,即可下载 SQL Server Developer 版本(

By Ne0inhk