跳到主要内容多模态大语言模型在全面长视频理解综述 | 极客日志PythonAI算法
多模态大语言模型在全面长视频理解综述
本文综述了多模态大语言模型在长视频理解领域的最新进展。文章分析了长视频理解相较于图像和短视频的独特挑战,包括丰富的细粒度时空细节、动态事件及长期依赖关系。详细介绍了模型架构的演进,涵盖视觉编码器、LLM 主干及模态接口的设计,特别是长视频级连接器在信息压缩和时间感知方面的创新。此外,文章还探讨了训练方法、基准测试表现及未来发展方向,旨在推动长视频理解技术的进步。
多模态大语言模型在全面长视频理解综述
大型语言模型(LLMs)与视觉编码器的集成最近在视觉理解任务中展示了令人瞩目的表现,充分利用了它们理解和生成类人文本以进行视觉推理的固有能力。鉴于视觉数据的多样性,多模态大型语言模型(MM-LLMs)在理解图像、短视频和长视频时,在模型设计和训练上表现出不同的变异性。本文重点讨论长视频理解相较于静态图像和短视频理解所带来的巨大差异和独特挑战。与静态图像不同,短视频包含具有空间和事件内时序信息的连续帧,而长视频则由多个事件组成,涵盖事件间和长期时序信息。在本次综述中,我们旨在追踪并总结从图像理解到长视频理解的 MM-LLMs 进展。
1 引言
大型语言模型(LLMs)通过扩大模型规模和训练数据展示了在理解和生成类人文本方面的显著多功能性和能力。为了将这些能力扩展到视觉理解任务中,已经提出了各种方法将 LLMs 与特定的视觉模态编码器相结合,从而赋予 LLMs 视觉感知能力。单张图像或多帧被编码为视觉标记,并与文本标记集成,以帮助多模态大型语言模型(MM-LLMs)实现视觉理解。对于长视频理解,MM-LLMs 设计用于处理大量视觉帧和多样化事件,使其能够应用于诸如自动分析体育视频集锦、电影、监控录像和具身 AI 中的自我视角视频等多种现实世界应用。
长视频理解与其他视觉理解任务之间存在显著差异。相比于静态图像理解,它仅关注静态图像的空间内容,而短视频理解还必须考虑事件内跨连续帧变化的时间信息。此外,长视频通常由多个事件组成,场景和视觉内容各异,需要捕捉事件间和长期的变化以实现有效理解。在有限的视觉标记数量下,如何有效平衡空间和时间细节,对长视频语言模型(LV-LLMs)提出了相当大的挑战。与仅包含几十帧的短视频不同,长视频往往包含数千帧。因此,LV-LLMs 必须能够记住并不断学习跨几分钟甚至几小时的视频中的长期关联。
我们在图 2 中总结了 MM-LLMs 在图像、短视频和长视频理解中的比较。除了上文讨论的长视频理解与其他视觉理解任务的继承和发展关系外,LV-LLMs 也在多图像和短视频 MM-LLMs 的进展基础上构建,具有相似的视觉编码器、LLM 主干和跨模态连接器结构。为有效解决长视频理解任务中新出现的挑战,LV-LLMs 设计了更高效的长视频级连接器,这些连接器不仅能桥接跨模态表示,还能将视觉标记压缩到可管理的数量。此外,时间感知模块通常被引入,以增强 LV-LLMs 对时间信息的捕捉。对于预训练和指令调优,视频 - 文本对和视频指令数据对于 MM-LLMs 处理具有共享空间感知和推理能力的图像和视频至关重要。长视频训练数据集在时间跨模态语义对齐和捕捉长期关联方面尤为重要,这对 LV-LLMs 至关重要。
近期关于视觉理解任务的综述通常采用单一视角,要么从全球视角审视 MM-LLMs,要么从局部视角聚焦于图像或视频理解任务。虽然这些工作对研究主题进行了广泛审查,但它们没有讨论不同任务和方法之间的继承与发展关系。此外,现有关于视频理解任务的综述更倾向于关注一般的视频理解,而非更具挑战性的长视频理解任务。超过一分钟的长视频在教育、娱乐、交通等领域广泛应用,需要强大的模型来实现全面的自动理解。我们的工作是最早从发展视角总结和讨论长视频理解任务的研究之一。
本综述的结构如下:首先,我们发现长视频理解任务相比于图像和短视频理解任务更为复杂,并在第 2.2 节总结了长视频理解的独特挑战。接下来,我们从模型架构和第 4 节的角度详细总结了 MM-LLMs 的进展,重点关注 LV-LLMs 在全面长视频理解中的实现。然后,我们比较了视频 LLMs 在不同长度的视频理解基准测试中的表现,为 LV-LLMs 的现有研究成果提供了见解。最后,我们在第 6 节中讨论了长视频理解领域未来的研究方向,以推进这一研究领域的发展。
2 长视频理解
由于长视频理解与图像或短视频理解之间的固有差异,包括多帧和动态场景中存在的各种事件,长视频理解任务在视觉理解方面提出了额外的挑战。
2.1 视觉推理与理解
视觉推理要求模型能够理解和解释视觉信息,并将多模态感知与常识性理解相结合。视觉推理任务主要有三种类型:视觉问答(VQA)、视觉字幕生成(VC)或描述(VD),以及视觉对话(VDia)。VQA 涉及根据输入的视觉数据和伴随的问题生成自然语言答案。VC 和 VD 系统分别生成简洁的自然语言句子以总结视觉数据的主要内容,或生成详细且全面的视觉数据描述。VDia 则涉及围绕视觉内容进行的多轮对话,由一系列问题 - 答案对组成。
图像理解。图像理解任务涉及单张图像的各种视觉推理任务,例如图像字幕生成和以图像为中心的问答。这些任务仅关注空间信息,包括对全局视觉内容的粗粒度理解以及对局部视觉细节的精细理解。
短视频理解。与图像理解任务仅涉及静态视觉数据不同,短视频理解还结合了多帧视觉数据中的时间信息。除了空间推理外,事件内的时间推理和跨帧的时空推理对于短视频理解至关重要。
长视频理解。长视频通常跨越数分钟甚至数小时,通常包含多个事件,与短视频相比,长视频涵盖更丰富的空间内容和时间变化。长视频理解不仅涉及空间和事件内的时间推理,还涉及事件间的推理和跨不同视频事件的长期推理。
2.2 长视频理解的挑战
与图像和短视频相比,长视频带来了全面视觉理解的新挑战,具体如下:
丰富的细粒度时空细节。长视频涵盖广泛的主题、场景和活动,包含不同的细节,如物体、事件和属性。与静态图像和具有相似多帧的短视频相比,这些细节更加丰富,使长视频理解更具挑战性。例如,可以在任何帧中引入细粒度的空间问答,而时间问答可以在长视频推理任务的帧间或帧内引入。用于长视频理解的多模态 LLMs 必须捕捉跨越数分钟甚至数小时的视频帧中的所有相关细粒度时空细节,并使用有限数量的视觉标记。
场景转换和内容变化中的动态事件。长视频通常包含各种动态事件,场景和内容变化显著。这些事件可能根据出现的顺序在语义上相关并按时间协调,也可能由于情节反转而表现出显著的语义差异。事件间推理涉及多个具有不同视觉信息的事件,对于准确的内容理解至关重要。对于多模态 LLMs 来说,区分语义差异并在不同事件中保持语义一致性对长视频理解尤为重要。
长期关联和依赖关系。长视频通常包含跨长时间段的动作和事件。捕捉长期依赖关系并理解视频的不同部分在长时间段内如何相互关联是一项挑战。用于图像或短视频的 LLMs 通常无法将当前事件与远离当前时间的过去或未来事件联系起来,也无法进行长期决策。
3 模型架构的进展
在本节中,我们从模型架构的角度讨论了多模态大型语言模型(MM-LLMs)从图像目标模型到长视频目标模型的进展。如图 4 所示,用于图像、短视频和长视频的 MM-LLMs 具有相似的结构,包括视觉编码器、LLM 主干和中介连接器。与图像目标 MM-LLMs 中的图像级连接器不同,视频级连接器在跨帧视觉信息的整合中起着关键作用。在长视频 LLMs(LV-LLMs)中,设计连接器更加具有挑战性,要求有效压缩大量视觉信息并结合时间知识来管理长期关联。
3.1 视觉编码器与 LLM 主干
MM-LLMs,包括图像目标和视频目标模型,通常使用相似的视觉编码器来提取视觉信息。LLM 主干在早期的 MM-LLM 方法中也比较通用,而现有的 LV-LLMs 倾向于在实现中使用长上下文 LLMs。
视觉编码器。预训练的视觉编码器负责从原始视觉数据中捕捉视觉知识。图像编码器如 CLIP-ViT-L/14、EVA-CLIP-ViT-G/14、OpenCLIP-ViT-bigG/14 和 SigLIP-SO400M 广泛用于图像和视频目标的 LLMs。近期工作表明,视觉表示(包括图像分辨率、视觉标记的大小和预训练视觉资源)比视觉编码器的大小更重要。
LLM 主干。LLM 是视觉理解系统中的核心模块,继承了推理和决策的属性。相比于闭源 LLMs,更多的开源 LLMs 更常用于实现视觉 LLMs。这些开源 LLMs 包括 Flan-T5、LLaMA、Vicuna、QWen、Mistral、Openflamingo、Yi 和 InternLM。LLM 的强度通常与视觉 LLMs 的多模态能力相关联。这意味着对于相同规模的 LLM,语言能力更强的模型表现更好;而对于相同 LLM 的不同规模模型,规模更大的模型通常会带来更好的多模态性能。此外,长上下文 LLMs 通过将上下文长度扩展到成千上万的标记,支持更多数据的学习。最近的 LV-LLMs 有效地将 LLM 的长上下文理解能力转移到视觉模态。
3.2 模态接口
视觉编码器和 LLMs 之间的连接器作为模态接口,将视觉特征映射到语言特征空间。鉴于视觉数据来源的多样性,这些连接器可以分为图像级、视频级和长视频级连接器。
图像级连接器。图像级连接器用于将图像特征映射到语言空间,以处理原始视觉标记,它们广泛用于图像目标和视频目标的 MM-LLMs 中。这些连接器可以分为三类:第一类直接使用单层线性层或多层感知器将图像特征映射到语言嵌入空间。然而,这种保留所有视觉标记的方法不适用于涉及多图像的视觉理解任务。为了应对保留所有视觉标记的局限性,第二类采用了基于池化的方法,包括空间池化、自适应池化、语义相似标记合并和相邻标记平均。第三类利用了基于交叉注意力或 Transformer 的结构,例如 Q-Former 和 Perceiver Resampler,用于图像特征压缩。
视频级连接器。视频级连接器用于提取连续的视觉数据并进一步压缩视觉特征。相比于图像目标 MM-LLMs 中的图像级连接器,视频级连接器在视频目标 MM-LLMs,包括 LV-LLMs 中尤为重要。一些方法直接将图像标记串联后输入到 LLMs,使其对帧图像数量较为敏感。用于标记压缩的图像级连接器的类似结构可以适用于视频级接口,如基于池化和 Transformer 的结构。沿时间序列维度的池化是减少时间信息冗余的直接方式。基于 Transformer 的方法,如 Video Q-Former 和 Video Perceiver,在提取视频特征的同时降低了数据复杂性。此外,基于 3D 卷积的方法可以从空间和时间维度提取并压缩视觉数据。
长视频级连接器。专为长视频 LLMs 设计的连接器考虑了两个特殊因素:处理长视频数据的高效视觉信息压缩和时间感知设计以保留时间信息。
有效压缩视觉信息不仅需要将输入的视觉标记减少到可接受的数量,还需要保留长视频中包含的完整时空细节。视频包含两种类型的数据冗余:帧内的空间数据冗余和帧间的时空数据冗余。一方面,当帧内的像素在区域级别相同时,空间数据冗余就会产生,从而导致通过完整的视觉标记表示冗余视觉帧时效率低下。为了减少空间视频数据冗余,LLaVA-Next 系列方法合并了相邻帧补丁标记,而 Chat-UniVi 合并了相似的帧补丁标记。另一方面,时空数据冗余包括帧间像素冗余和运动冗余。为了减少时空视频冗余,MovieChat 和 MALMM 在将帧特征输入到 LLMs 之前合并了相似帧特征。在减少冗余信息的同时,保留更多视频时空细节对于准确的长视频推理至关重要。为了平衡全局和局部视觉信息并支持更多帧输入,SlowFast-LLaVA 采用了低帧率的慢路径来提取特征,同时保留更多的视觉标记,以及高帧率的快路径,通过更大的空间池化步长关注运动线索。
此外,时间相关的视觉数据可以有效管理长视频固有的时空信息。时间感知设计可以增强视频相关 LLMs 的时间捕捉能力,这对于长视频理解特别有益。VTimeLLM 和 InternLM-XComposer-2.5 都使用帧索引来增强时间关系。不同之处在于其方法:VTimeLLM 通过训练包含帧索引的解码文本来学习时间信息,而 IXC-2.5 则将帧索引与帧图像上下文一起编码。TimeChat 和 Momentor 将时间信息直接注入帧特征中,以捕捉细粒度的时间信息。具体而言,TimeChat 设计了一个时间感知帧编码器,用于在帧级别提取视觉特征,并添加相应的时间戳描述,而 Momentor 利用了一个时间感知模块,用于连续时间编码和解码,将时间信息注入帧特征中。
4 训练方法进展
为了实现长视频理解,MM-LLMs 的训练策略同样至关重要。训练过程通常分为预训练和指令微调两个阶段。
预训练。视频 - 文本对和视频指令数据对于 MM-LLMs 处理具有共享空间感知和推理能力的图像和视频至关重要。长视频训练数据集在时间跨模态语义对齐和捕捉长期关联方面尤为重要,这对 LV-LLMs 至关重要。通过在大规模视频 - 文本对上进行对比学习或掩码建模,模型可以学习到视觉特征与文本描述之间的深层语义关联。
指令微调。为了让模型更好地遵循用户指令并进行复杂的推理,指令微调是必不可少的步骤。这通常涉及构建包含长视频问答、摘要生成和事件定位等任务的指令数据集。通过这种方式,模型能够适应多样化的下游任务,提高其在实际应用场景中的泛化能力。
5 基准测试与评估
我们比较了现有 MM-LLMs 在不同长度视频理解基准测试中的表现。这些基准涵盖了从秒级短视频到分钟级长视频的各种场景。评估指标通常包括准确率、召回率以及生成的文本质量。结果显示,随着视频长度的增加,现有模型的性能普遍下降,这突显了长视频理解任务的难度。针对长视频优化的模型在特定基准上表现出了显著优势,特别是在处理时间依赖和事件推理方面。
6 未来发展方向
尽管 MM-LLMs 在长视频理解方面取得了显著进展,但仍面临诸多挑战。未来的研究方向可能包括以下几个方面:
- 更高效的信息压缩:开发更先进的压缩算法,在减少视觉标记数量的同时最大程度保留关键时空信息。
- 增强的时间推理能力:改进模型对长距离时间依赖的建模能力,使其能够理解跨越数小时的事件逻辑。
- 多模态对齐优化:进一步提升视频、音频和文本之间的跨模态对齐精度,支持更复杂的交互任务。
- 实时处理能力:优化模型推理速度,使其能够应用于实时视频监控或直播分析等场景。
- 开放域理解:扩展模型的知识边界,使其能够理解更多样化的视频内容和专业领域的视频数据。
结论
本文总结了视觉 LLMs 从图像到长视频的进展。基于对图像理解、短视频理解和长视频理解任务差异的分析,我们识别了长视频学习的关键挑战。这些挑战包括在动态连续事件中捕捉更多的细粒度时空细节和在场景转换与内容变化中压缩视觉信息中的长期依赖关系。接着,我们介绍了从图像 LLMs 到长视频 LLMs 在模型架构和模型训练方面的进展,旨在提升长视频的理解与推理能力。
随后,我们回顾了多个不同长度的视频基准测试,并比较了不同方法的视频理解性能。该比较为长视频理解的未来研究方向提供了见解。我们的论文是首个聚焦于长视频 LLMs 的开发和改进,以提升长视频理解的研究工作。我们希望本研究能推动 LLMs 在长视频理解与推理领域的进步。
相关免费在线工具
- 加密/解密文本
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
- RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
- Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
- curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
- Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
- Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online