TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA
TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA
原创 努力努力再努力的 2024年09月21日 09:00 福建
摘要
目前,受视觉语言模型 (VLMs) 成功启发,越来越多的研究人员专注于改进 VLMs,并取得了可喜的成果。 然而,大多数现有方法集中于优化连接器和增强语言模型组件,而忽略了对视觉编码器本身的改进。 相反,我们在本文中提出了文本引导的 LLaVA (TG-LLaVA),它通过文本引导视觉编码器来优化 VLMs,提供了一个新的、正交的优化方向。 具体来说,受人类行为中固有的目标驱动逻辑的启发,我们使用可学习的潜在嵌入作为桥梁来分析文本指令,并将分析结果添加到视觉编码器中作为指导,对其进行细化。 随后,另一组潜在嵌入从高分辨率局部补丁中提取额外的详细文本引导信息作为辅助信息。 最后,在文本的指导下,视觉编码器可以提取与文本相关的特征,类似于人类在考虑问题时如何关注图像中最相关的部分。 这导致生成更好的答案。 在各种数据集上的实验验证了所提出方法的有效性。 值得注意的是,在不需要额外训练数据的情况下,与其他并发方法相比,我们提出的方法可以为基线 (LLaVA-1.5)带来更多益处。 此外,所提出的方法在不同的设置中始终带来改进。 代码将在发布后提供。
绪论
通过将视觉信息整合到大型语言模型 (LLMs) 中,视觉语言模型 (VLMs) 在 ChatGPT (OpenAI 2023a) 和 Llama (Touvron et al. 2023) 等 LLMs 的成功基础上,将它们的能力更进一步。VLMs 不仅限于与人类进行基于语言的对话,它们还可以讨论图像内容,回答与视觉输入相关的问答等。 近年来,围绕 VLMs,研究人员开展了大量工作,取得了显著进展 (Wu 等人 2023; Zhang 等人 2024; Awadalla 等人 2023; Reid 等人 2024)。
图 1: TG-LLaVA 相比于基线 LLaVA-1.5 的性能提升百分比 (Liu 等人 2024a),分别使用 Vicuna-7B(左)和 13B(右)在十个基准测试中进行评估。
当前采用的 VLMs 通常由三个主要组件组成:视觉编码器、大型语言模型和连接器。 视觉编码器在大量图像-文本对上进行训练,使用对比学习将图像编码到与文本共享的空间中。 广泛使用的示例包括 CLIP(Radford 等人 2021) 和 SigLIP (Zhai 等人 2023)。 像 Llama(Touvron 等人 2023)、Vicuna (Chiang 等人 2023)、Qwen (Bai 等人 2023a) 和 Yi (Young 等人 2024) 这样的 LLMs 在自然语言处理任务方面取得了重大进展,为在 VLMs 中将视觉与文本相结合铺平了道路。 连接器侧重于对齐视觉和语言特征,充当模态之间的桥梁。
与 VLMs 的主要架构相对应,当前的改进方法主要集中在优化连接器和增强三个主要组件中的语言模型组件。 例如,BLIP2(Li 等人 2023b) 仔细设计了对比学习和生成学习的多个损失函数,这使其能够通过多阶段训练过程实现精确的跨模态对齐。MoE-LLaVA(Lin 等人 2024) 在第二个特征前馈网络层中加入了专家混合,以增强连接器组件。DenseConnector(Yao 等人 2024) 使用密集连接来合并来自各个级别的特征,为 LLM 提供更多视觉信息。ImageBind-LLM(Han 等人 2023) 使用绑定网络转换图像特征,然后将这些转换后的特征与 LLM 的词符元集成。 除了改进模型结构外,增加数据量也是一种常用的策略。 此方法通常会产生更明显的结果,但也涉及更大的工作量。
在本文中,我们提出了文本引导的 LLaVA(TG-LLaVA),它从一个不同的、甚至对比的角度优化了视觉语言模型。 与之前专注于增强连接器或 LLM 组件的工作不同,我们的方法集中于改进视觉编码器本身。 与将图像特征整合到 LLM 中的主要策略形成对比,我们整合了文本引导信息到图像特征中。
我们的 TG-LLaVA 的基本思想源于两个关键见解:1)当人类解决视觉问答任务时,他们使用问题作为先验,选择性地关注局部区域或特定目标进行观察和响应。2)大量研究表明,改进的视觉表示对于增强 VLM 性能至关重要。 提出的 TG-LLaVA 旨在使用文本指令引导当前 VLM 的视觉编码过程,从而优化 VLM 的视觉分支。 具体来说,提出的 TG-LLaVA 包含两个文本引导模块,即文本引导特征优化掩码 (TG-FOM) 模块和文本引导和文本引导细节感知器 (TG-DP) 模块。 在 TG-FOM 模块中,使用一组可学习的潜在嵌入来从全局角度分析输入文本,然后通过零初始化线性层将分析的语言信息添加到图像特征中作为引导。 在 TG-DP 模块中,使用极少数可学习的潜在嵌入来详细解析输入文本,然后使用解析的符元作为引导来融合来自聚焦图像视角的信息。 如图 1 所示,大量实验已经证明了所提设计方案的有效性,表明在多个数据集和不同的框架上,相对于基线方案有显著改进,而无需任何额外的 数据增强或复杂的增强。 主要贡献总结如下:
•
我们提出了 TG-LLaVA,一种基于可学习的潜在嵌入的文本引导架构,它不同于甚至与大多数现有的 VLM 优化方法相反,它开辟了一条新的、值得考虑的研究途径。
•
提出的 TG-FOM 模块和 TG-DP 模块可以作为模块化插件普遍应用于主流 VLM 框架,始终带来改进。
•
通过对 VLM 变体和众多多模态任务的各种设置进行广泛的实验,我们表明我们提出的 TG-LLaVA 不仅带来了巨大的益处,而且还为现有的 VLM 研究领域提供了宝贵的见解和方法。
相关工作
视觉语言模型
视觉语言模型主要由视觉编码器和大型语言模型组成,代表了多模态领域中突出的架构。 研究人员提出了一些架构 (Li 等人 2023a; Zhu 等人 2024; Chen 等人 2023c) 用于将视觉特征整合到高级 LLM 推理管道中。Llama-Adapter(Zhang 等人 2023) 提出在将图像输入作为条件的情况下生成语言答案。Flamingo(Alayrac 等人 2022) 和 LLaVA (Liu 等人 2024c) 将视觉符元与文本混合作为 LLM 的输入,区别在于 Flamingo 采用门控机制将编码的视觉特征注入 LLM,而 LLaVA 直接在输入处连接视觉和文本特征。 此外,高质量图像-文本对的可用性对于 VLM 训练至关重要。 几种方法使用 Chat-GPT(OpenAI 2023a) 和 GPT-4 (OpenAI 2023b) 来构建大规模、高质量数据集 (Zhu 等人 2023; Liu 等人 2024c; Zhao 等人 2023)。
受 LLaVA-1.5 (Liu 等人 2024a) 的紧凑结构和优异性能的启发,我们使用 LLaVA-1.5 作为我们的基线,并加入了一种文本引导方法,类似于其他基于 LLaVA 的方法。 与大多数这些方法不同,这些方法创建了额外的数据集来提高性能,我们的改进完全集中在模型架构本身。 这种方法可以进一步提高依赖额外数据集的方法的性能。 表 1 中第五行和第六行的结果验证了这一点。
图 2: 提出的 TG-LLaVA 的总体框架。 文本引导视觉特征优化掩码 (TG-FOM) 模块旨在通过全局文本的引导来优化视觉特征。 提出了文本引导细节感知器 (TG-DP) 模块来捕获与指令相关的细节。
图像-文本对齐
在高语义层面上对齐视觉和文本信息是构建 VLM 的基础。 以此问题为中心,研究人员已经做了大量工作。 之前的研究人员通常在跨模态中使用对比学习,并在文本中使用自回归学习。CLIP(Radford 等人,2021) 和 SigLIP (Zhai 等人,2023) 在大型数据集上训练编码器,为对齐视觉和文本模态奠定了基础,并极大地推进了随后的 VLM 发展。BLIP(Li 等人,2022) 仔细设计了多个对比学习和生成学习的损失函数,通过多阶段训练实现了精细的跨模态对齐。BLIP-2(Li 等人,2023b) 采用 Q-former 结构,在与文本模态合并之前使用可学习的查询向量与视觉模态交互。 许多类似 LLaVA 的方法使用简单的 MLP 进行模态对齐,后续工作如 MobileVLM V2(Chu 等人,2024)。
图像-文本对齐方法和我们提出的 TG-LLaVA 都认识到整合文本和视觉信息的重要性。 但是,这些方法专注于桥接不同的模态,而我们的方法利用文本模态来引导和优化视觉模态。 这种对齐使 VLM 的操作更加符合现实世界场景中人类行为的目的驱动的逻辑。
VLM 中的视觉编码器
为了使 LLM 能够从输入的视觉图像中提取更多信息,人们提出了各种利用视觉特征的策略。DenseConnector(Yao 等人,2024) 使用密集连接来连接不同级别的视觉特征,并将组合后的特征馈送到连接器中。TokenPacker(Li 等人,2024a) 合并了来自高分辨率分支的视觉特征和来自低分辨率分支的视觉特征,以生成压缩的视觉标记。Idefics2(Laurençon 等人,2024) 使用感知器结构压缩视觉特征,与其他方法相比,显著减少了视觉标记的数量。 像 Mini-Gemini(Li 等人,2024b)、LLaVA-Next (Liu 等人,2024b)、Qwen-VL (Bai 等人,2023b) 和 InterVLM (Dong 等人,2024) 这样的方法利用高分辨率图像来捕获更精细的视觉特征细节。ImageBind-LLM(Han 等人,2023) 和 Llama3.1 (Meta AI,2024b) 探讨了将视觉模态特征注入 LLM,前者使用可训练的门控模块将视觉特征添加到单词标记,后者通过周期性交叉注意在 LLM 的不同层引入视觉信息。
与专注于更好地利用现有视觉特征的方法不同,我们提出的 TG-LLaVA 旨在通过使用文本指导来增强视觉特征本身。 与将图像特征整合到 LLM 组件中的 ImageBind-LLM 和 Llama3.1 相反,我们的方法将文本整合到视觉编码器中。
方法
在本节中,我们首先回顾经典的 VLM 架构,以 LLaVA (Liu et al. 2024c) 为代表,概述 VLM 范式。 接着,我们详细介绍了提出的 TG-LLaVA 架构,重点介绍了两个文本引导模块的实现,即文本引导视觉特征优化掩码模块和文本引导细节感知模块。
重温 VLM
以 LLaVA (Liu et al. 2024c) 为例,VLM 的主要目标是有效地利用预训练的 LLM 和视觉模型的能力。 这种框架的三个关键组件可以定义如下:
1) 视觉编码器 Ev 通常使用预训练的视觉 Transformer(如 CLIP),旨在将输入图像 𝐈∈ℝH×W×C 分割成大小相同的多个补丁,并进一步将其编码为视觉特征 𝐅i∈ℝN×D。 这里,H 和 W 代表输入图像的大小,C 表示通道数,N 对应于输出特征中的补丁数,D 代表每个编码补丁的特征维度。 当补丁大小为 P,N=HW/P2 时。2) 连接器 C(也称为投影器)由两个线性层组成,中间有一个 GELU 激活函数。 它的目的是将视觉特征映射到 LLM 的嵌入空间,将 𝐅i 转换为视觉符元 𝐓v。3) LLM L 使用词元化器和文本嵌入模块将文本数据依次转换为词元 ID 及其相应的嵌入词元 𝐓t,有效地将语言转换为其输入的特征空间。 在 VLM 架构中,这些文本词元 𝐓t 与连接器处理的对齐的视觉词元 𝐓v 连接,形成 LLM 进行后续预测的输入。 对于长度为 L 的序列,VLM 预测目标答案词元 𝐓a={ti}i=1L 的概率可以形式化为:
其中 θ 代表 VLM 中所有可训练参数。 在这种 VLM 预测范式中,视觉特征是通过 Ev 对原始输入图像进行编码直接获得的,没有任何与文本模态的交互。 这种方法与人类行为的目标驱动性质形成对比。 根据文本指令优化编码后的特征更有利于使 VLM 生成准确的响应。
图 3: 文本引导的视觉特征优化掩码模块的说明。
文本引导的 LLaVA
受人类在视觉问答场景中使用的推理逻辑的启发,我们设计了 TG-LLaVA,这是一种新颖的方法,它优化了视觉特征以使 VLM 的推理过程更符合目标驱动的人类行为,从而进一步增强了 VLM 的能力。 如图 2 所示,TG-LLaVA 主要由两个部分组成:文本引导的视觉特征优化掩码 (TG-FOM) 和文本引导的细节感知器 (TG-DP)。 前者使用可学习的潜在变量来解析来自文本指令的全局信息,并将其作为掩码附加到视觉编码器的输出,根据文本指令优化特征。 后者采用另一组潜在变量,首先与来自文本指令的详细信息进行交互,然后根据这些指令从输入图像的高分辨率补丁中提取细粒度的细节。 这些细节与原始特征连接在一起,进一步细化了 VLM 的视觉模态输入。 本方法的具体细节将在以下部分中详细阐述。
图 4: 文本引导的细节感知器模块的说明。
文本引导的视觉特征优化掩码
在当前的 VLM 中,视觉表示通常仅源于视觉编码器 Ev 的最后一层特征。 通过此管道获得的特征包含输入图像的全局信息 𝐈。 然而,相应的文本指令通常侧重于图像中的特定局部目标。 因此,当遇到无关甚至矛盾的信息时,与这些焦点目标相关的信息很容易受到损害,导致 VLM 出现扭曲的判断。 为了解决这个问题,我们设计了 TG-FOM 模块,以根据文本指令优化视觉特征,从而赋予 VLM 目的驱动的类人行为优势。 图 3 说明了 FOM 模块的具体框架。
我们首先初始化一组可学习的潜在嵌入 𝐋m,其数量与视觉符元相同。 这些潜伏变量的目的是从文本指令中提取语言信息,并将其作为掩码添加到原始特征中。 在这里,我们设计了一个单层 Q-former 来解析文本指令中的语义信息,作为全局文本和视觉特征之间的桥梁。 在这种结构中,交叉注意力层将 CLIP 文本编码器 Et 编码的池化文本指令特征 𝐅tp 作为键和值,用于与查询 𝐋m 交互,最终输出是根据文本信息生成的掩码,然后应用于视觉特征。 我们还引入了零初始化线性层,以确保对原始视觉特征的优化是一个渐进的过程。 此过程可以形式化为:
其中 𝐌t 表示通过可学习的 𝐋m、Across 和 Aself 从文本指令中提取语义信息获得的掩码,分别表示交叉注意力和自注意力模块,FFN 表示前馈神经网络,Z 表示用作特征添加缓冲区的零初始化线性层,𝐅i∗ 表示通过文本指导优化的视觉特征。
文本引导细节感知器
在观察图像时,除了根据指令选择焦点之外,人类还可以自动调整其焦点以获取更详细的信息。 遵循这个想法,我们设计了 TG-DP,它负责捕获指令相关的细节。
如图 2 所示,我们将原始图像 𝐈 放大,以保留更多细节,然后将其划分为与原始图像大小匹配的补丁。 这种设计确保我们能够通过对视觉编码器的一次调用来提取所有视觉特征。 在获得这些补丁的视觉特征后,我们添加位置嵌入和一个可学习的 MLP 层来恢复在分割操作期间被破坏的空间结构信息,得到校正后的视觉特征 𝐅ih。 到目前为止,包含详细信息的视觉标记已准备就绪。 这些视觉标记将与可学习的潜在嵌入 𝐋h 和细粒度的文本指令特征 𝐅tg 一起输入 TG-DP 模块,其中它们将根据文本的指导进行选择和整合。
如图 4 所示,我们设置 𝐋h 与文本编码器 Et 输出的 𝐅tg 交互。 这里,𝐋h 的数量远小于原始视觉标记的数量,确保输入到 LLM 的视觉标记不会显著增加,从而保持推断效率。 消融研究表明,这种压缩不会对最终结果产生负面影响。
提出的 TG-DP 模块包含两个感知层:
•
第一个感知层负责解析细粒度的文本以生成文本指导标记。 它接收 𝐋h 和 𝐅tg,保持 𝐋h 作为查询,𝐅tg 作为键和值,区别在于 𝐅tg 与 𝐋h 连接在一起。
•
第二层负责在细粒度文本的指导下生成细节感知标记。 在第二层中,键和值被 𝐅ih 替换,使用通过第一层解析的文本指令特征作为查询进行第二次交互。 第二层的输出是压缩后的视觉标记 𝐅ih。
由于 𝐅ih 的特征空间与原始 VLM 视觉特征之间存在显著差异,我们为 𝐅ih 设计了一个专用连接器 Ch。 整个过程可以形式化为:
其中 Li 表示 DP 模块内的 ith 层,𝐅L1 是第一层的输出,CAT 表示连接操作。 BNLi(i∈(1,2)) 表示绑定网络,可以形式化为:
概述
此时,在输入文本的指导下,我们已经获得了优化的视觉特征 𝐅i∗ 以及详细的感知符元 𝐅ih。 然后,我们将从原始 VLM 连接器 C 中获得的特征与 𝐅ih 连接起来,共同形成最终的视觉符元 𝐓vfin,作为 VLM 的输入。VLM 的最终预测过程可以表示如下:
结论
在本文中,我们介绍了 TG-LLaVA,一种利用文本指导视觉编码器的创新型 VLM 优化技术。 通过模拟人类类似目的驱动的逻辑,我们利用可学习的嵌入来分析文本并增强视觉编码器。 我们的实验表明,TG-LLaVA 优于类似的方法,并且可以适应各种框架,始终带来改进。 这种文本引导的视觉编码器增强为推进 VLM 开辟了一条新途径。 对于未来的工作,我们旨在进一步完善由文本引导的视觉特征提取过程,以实现更好的性能。