多模态大语言模型在全面长视频理解综述
大型语言模型(LLMs)与视觉编码器的集成最近在视觉理解任务中展示了令人瞩目的表现,充分利用了它们理解和生成类人文本以进行视觉推理的固有能力。鉴于视觉数据的多样性,多模态大型语言模型(MM-LLMs)在理解图像、短视频和长视频时,在模型设计和训练上表现出不同的变异性。本文重点讨论长视频理解相较于静态图像和短视频理解所带来的巨大差异和独特挑战。与静态图像不同,短视频包含具有空间和事件内时序信息的连续帧,而长视频则由多个事件组成,涵盖事件间和长期时序信息。在本次综述中,我们旨在追踪并总结从图像理解到长视频理解的 MM-LLMs 进展。
1 引言
大型语言模型(LLMs)通过扩大模型规模和训练数据展示了在理解和生成类人文本方面的显著多功能性和能力。为了将这些能力扩展到视觉理解任务中,已经提出了各种方法将 LLMs 与特定的视觉模态编码器相结合,从而赋予 LLMs 视觉感知能力。单张图像或多帧被编码为视觉标记,并与文本标记集成,以帮助多模态大型语言模型(MM-LLMs)实现视觉理解。对于长视频理解,MM-LLMs 设计用于处理大量视觉帧和多样化事件,使其能够应用于诸如自动分析体育视频集锦、电影、监控录像和具身 AI 中的自我视角视频等多种现实世界应用。
长视频理解与其他视觉理解任务之间存在显著差异。相比于静态图像理解,它仅关注静态图像的空间内容,而短视频理解还必须考虑事件内跨连续帧变化的时间信息。此外,长视频通常由多个事件组成,场景和视觉内容各异,需要捕捉事件间和长期的变化以实现有效理解。在有限的视觉标记数量下,如何有效平衡空间和时间细节,对长视频语言模型(LV-LLMs)提出了相当大的挑战。与仅包含几十帧的短视频不同,长视频往往包含数千帧。因此,LV-LLMs 必须能够记住并不断学习跨几分钟甚至几小时的视频中的长期关联。
我们在图 2 中总结了 MM-LLMs 在图像、短视频和长视频理解中的比较。除了上文讨论的长视频理解与其他视觉理解任务的继承和发展关系外,LV-LLMs 也在多图像和短视频 MM-LLMs 的进展基础上构建,具有相似的视觉编码器、LLM 主干和跨模态连接器结构。为有效解决长视频理解任务中新出现的挑战,LV-LLMs 设计了更高效的长视频级连接器,这些连接器不仅能桥接跨模态表示,还能将视觉标记压缩到可管理的数量。此外,时间感知模块通常被引入,以增强 LV-LLMs 对时间信息的捕捉。对于预训练和指令调优,视频 - 文本对和视频指令数据对于 MM-LLMs 处理具有共享空间感知和推理能力的图像和视频至关重要。长视频训练数据集在时间跨模态语义对齐和捕捉长期关联方面尤为重要,这对 LV-LLMs 至关重要。
近期关于视觉理解任务的综述通常采用单一视角,要么从全球视角审视 MM-LLMs,要么从局部视角聚焦于图像或视频理解任务。虽然这些工作对研究主题进行了广泛审查,但它们没有讨论不同任务和方法之间的继承与发展关系。此外,现有关于视频理解任务的综述更倾向于关注一般的视频理解,而非更具挑战性的长视频理解任务。超过一分钟的长视频在教育、娱乐、交通等领域广泛应用,需要强大的模型来实现全面的自动理解。我们的工作是最早从发展视角总结和讨论长视频理解任务的研究之一。
本综述的结构如下:首先,我们发现长视频理解任务相比于图像和短视频理解任务更为复杂,并在第 2.2 节总结了长视频理解的独特挑战。接下来,我们从模型架构和第 4 节的角度详细总结了 MM-LLMs 的进展,重点关注 LV-LLMs 在全面长视频理解中的实现。然后,我们比较了视频 LLMs 在不同长度的视频理解基准测试中的表现,为 LV-LLMs 的现有研究成果提供了见解。最后,我们在第 6 节中讨论了长视频理解领域未来的研究方向,以推进这一研究领域的发展。
2 长视频理解
由于长视频理解与图像或短视频理解之间的固有差异,包括多帧和动态场景中存在的各种事件,长视频理解任务在视觉理解方面提出了额外的挑战。
2.1 视觉推理与理解
视觉推理要求模型能够理解和解释视觉信息,并将多模态感知与常识性理解相结合。视觉推理任务主要有三种类型:视觉问答(VQA)、视觉字幕生成(VC)或描述(VD),以及视觉对话(VDia)。VQA 涉及根据输入的视觉数据和伴随的问题生成自然语言答案。VC 和 VD 系统分别生成简洁的自然语言句子以总结视觉数据的主要内容,或生成详细且全面的视觉数据描述。VDia 则涉及围绕视觉内容进行的多轮对话,由一系列问题 - 答案对组成。
图像理解。图像理解任务涉及单张图像的各种视觉推理任务,例如图像字幕生成和以图像为中心的问答。这些任务仅关注空间信息,包括对全局视觉内容的粗粒度理解以及对局部视觉细节的精细理解。
短视频理解。与图像理解任务仅涉及静态视觉数据不同,短视频理解还结合了多帧视觉数据中的时间信息。除了空间推理外,事件内的时间推理和跨帧的时空推理对于短视频理解至关重要。
长视频理解。长视频通常跨越数分钟甚至数小时,通常包含多个事件,与短视频相比,长视频涵盖更丰富的空间内容和时间变化。长视频理解不仅涉及空间和事件内的时间推理,还涉及事件间的推理和跨不同视频事件的长期推理。
2.2 长视频理解的挑战
与图像和短视频相比,长视频带来了全面视觉理解的新挑战,具体如下:
丰富的细粒度时空细节。长视频涵盖广泛的主题、场景和活动,包含不同的细节,如物体、事件和属性。与静态图像和具有相似多帧的短视频相比,这些细节更加丰富,使长视频理解更具挑战性。例如,可以在任何帧中引入细粒度的空间问答,而时间问答可以在长视频推理任务的帧间或帧内引入。用于长视频理解的多模态 LLMs 必须捕捉跨越数分钟甚至数小时的视频帧中的所有相关细粒度时空细节,并使用有限数量的视觉标记。


