TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

原创 努力努力再努力的  2024年09月21日 09:00 福建

摘要

目前,受视觉语言模型 (VLMs) 成功启发,越来越多的研究人员专注于改进 VLMs,并取得了可喜的成果。 然而,大多数现有方法集中于优化连接器和增强语言模型组件,而忽略了对视觉编码器本身的改进。 相反,我们在本文中提出了文本引导的 LLaVA (TG-LLaVA),它通过文本引导视觉编码器来优化 VLMs,提供了一个新的、正交的优化方向。 具体来说,受人类行为中固有的目标驱动逻辑的启发,我们使用可学习的潜在嵌入作为桥梁来分析文本指令,并将分析结果添加到视觉编码器中作为指导,对其进行细化。 随后,另一组潜在嵌入从高分辨率局部补丁中提取额外的详细文本引导信息作为辅助信息。 最后,在文本的指导下,视觉编码器可以提取与文本相关的特征,类似于人类在考虑问题时如何关注图像中最相关的部分。 这导致生成更好的答案。 在各种数据集上的实验验证了所提出方法的有效性。 值得注意的是,在不需要额外训练数据的情况下,与其他并发方法相比,我们提出的方法可以为基线 (LLaVA-1.5)带来更多益处。 此外,所提出的方法在不同的设置中始终带来改进。 代码将在发布后提供。

绪论

通过将视觉信息整合到大型语言模型 (LLMs) 中,视觉语言模型 (VLMs) 在 ChatGPT (OpenAI 2023a) 和 Llama (Touvron et al. 2023) 等 LLMs 的成功基础上,将它们的能力更进一步。VLMs 不仅限于与人类进行基于语言的对话,它们还可以讨论图像内容,回答与视觉输入相关的问答等。 近年来,围绕 VLMs,研究人员开展了大量工作,取得了显著进展 (Wu 等人 2023; Zhang 等人 2024; Awadalla 等人 2023; Reid 等人 2024)。

www.zeeklog.com  - TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

图 1: TG-LLaVA 相比于基线 LLaVA-1.5 的性能提升百分比 (Liu 等人 2024a),分别使用 Vicuna-7B(左)和 13B(右)在十个基准测试中进行评估。

当前采用的 VLMs 通常由三个主要组件组成:视觉编码器、大型语言模型和连接器。 视觉编码器在大量图像-文本对上进行训练,使用对比学习将图像编码到与文本共享的空间中。 广泛使用的示例包括 CLIP(Radford 等人 2021) 和 SigLIP (Zhai 等人 2023)。 像 Llama(Touvron 等人 2023)、Vicuna (Chiang 等人 2023)、Qwen (Bai 等人 2023a) 和 Yi (Young 等人 2024) 这样的 LLMs 在自然语言处理任务方面取得了重大进展,为在 VLMs 中将视觉与文本相结合铺平了道路。 连接器侧重于对齐视觉和语言特征,充当模态之间的桥梁。

与 VLMs 的主要架构相对应,当前的改进方法主要集中在优化连接器和增强三个主要组件中的语言模型组件。 例如,BLIP2(Li 等人 2023b) 仔细设计了对比学习和生成学习的多个损失函数,这使其能够通过多阶段训练过程实现精确的跨模态对齐。MoE-LLaVA(Lin 等人 2024) 在第二个特征前馈网络层中加入了专家混合,以增强连接器组件。DenseConnector(Yao 等人 2024) 使用密集连接来合并来自各个级别的特征,为 LLM 提供更多视觉信息。ImageBind-LLM(Han 等人 2023) 使用绑定网络转换图像特征,然后将这些转换后的特征与 LLM 的词符元集成。 除了改进模型结构外,增加数据量也是一种常用的策略。 此方法通常会产生更明显的结果,但也涉及更大的工作量。

在本文中,我们提出了文本引导的 LLaVA(TG-LLaVA),它从一个不同的、甚至对比的角度优化了视觉语言模型。 与之前专注于增强连接器或 LLM 组件的工作不同,我们的方法集中于改进视觉编码器本身。 与将图像特征整合到 LLM 中的主要策略形成对比,我们整合了文本引导信息到图像特征中。

我们的 TG-LLaVA 的基本思想源于两个关键见解:1)当人类解决视觉问答任务时,他们使用问题作为先验,选择性地关注局部区域或特定目标进行观察和响应。2)大量研究表明,改进的视觉表示对于增强 VLM 性能至关重要。 提出的 TG-LLaVA 旨在使用文本指令引导当前 VLM 的视觉编码过程,从而优化 VLM 的视觉分支。 具体来说,提出的 TG-LLaVA 包含两个文本引导模块,即文本引导特征优化掩码 (TG-FOM) 模块和文本引导和文本引导细节感知器 (TG-DP) 模块。 在 TG-FOM 模块中,使用一组可学习的潜在嵌入来从全局角度分析输入文本,然后通过零初始化线性层将分析的语言信息添加到图像特征中作为引导。 在 TG-DP 模块中,使用极少数可学习的潜在嵌入来详细解析输入文本,然后使用解析的符元作为引导来融合来自聚焦图像视角的信息。 如图 1 所示,大量实验已经证明了所提设计方案的有效性,表明在多个数据集和不同的框架上,相对于基线方案有显著改进,而无需任何额外的 数据增强或复杂的增强。 主要贡献总结如下:

我们提出了 TG-LLaVA,一种基于可学习的潜在嵌入的文本引导架构,它不同于甚至与大多数现有的 VLM 优化方法相反,它开辟了一条新的、值得考虑的研究途径。

提出的 TG-FOM 模块和 TG-DP 模块可以作为模块化插件普遍应用于主流 VLM 框架,始终带来改进。

通过对 VLM 变体和众多多模态任务的各种设置进行广泛的实验,我们表明我们提出的 TG-LLaVA 不仅带来了巨大的益处,而且还为现有的 VLM 研究领域提供了宝贵的见解和方法。

相关工作

视觉语言模型

视觉语言模型主要由视觉编码器和大型语言模型组成,代表了多模态领域中突出的架构。 研究人员提出了一些架构 (Li 等人 2023a; Zhu 等人 2024; Chen 等人 2023c) 用于将视觉特征整合到高级 LLM 推理管道中。Llama-Adapter(Zhang 等人 2023) 提出在将图像输入作为条件的情况下生成语言答案。Flamingo(Alayrac 等人 2022) 和 LLaVA (Liu 等人 2024c) 将视觉符元与文本混合作为 LLM 的输入,区别在于 Flamingo 采用门控机制将编码的视觉特征注入 LLM,而 LLaVA 直接在输入处连接视觉和文本特征。 此外,高质量图像-文本对的可用性对于 VLM 训练至关重要。 几种方法使用 Chat-GPT(OpenAI 2023a) 和 GPT-4 (OpenAI 2023b) 来构建大规模、高质量数据集 (Zhu 等人 2023; Liu 等人 2024c; Zhao 等人 2023)。

受 LLaVA-1.5 (Liu 等人 2024a) 的紧凑结构和优异性能的启发,我们使用 LLaVA-1.5 作为我们的基线,并加入了一种文本引导方法,类似于其他基于 LLaVA 的方法。 与大多数这些方法不同,这些方法创建了额外的数据集来提高性能,我们的改进完全集中在模型架构本身。 这种方法可以进一步提高依赖额外数据集的方法的性能。 表 1 中第五行和第六行的结果验证了这一点。

www.zeeklog.com  - TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

图 2: 提出的 TG-LLaVA 的总体框架。 文本引导视觉特征优化掩码 (TG-FOM) 模块旨在通过全局文本的引导来优化视觉特征。 提出了文本引导细节感知器 (TG-DP) 模块来捕获与指令相关的细节。

图像-文本对齐

在高语义层面上对齐视觉和文本信息是构建 VLM 的基础。 以此问题为中心,研究人员已经做了大量工作。 之前的研究人员通常在跨模态中使用对比学习,并在文本中使用自回归学习。CLIP(Radford 等人,2021) 和 SigLIP (Zhai 等人,2023) 在大型数据集上训练编码器,为对齐视觉和文本模态奠定了基础,并极大地推进了随后的 VLM 发展。BLIP(Li 等人,2022) 仔细设计了多个对比学习和生成学习的损失函数,通过多阶段训练实现了精细的跨模态对齐。BLIP-2(Li 等人,2023b) 采用 Q-former 结构,在与文本模态合并之前使用可学习的查询向量与视觉模态交互。 许多类似 LLaVA 的方法使用简单的 MLP 进行模态对齐,后续工作如 MobileVLM V2(Chu 等人,2024)。

图像-文本对齐方法和我们提出的 TG-LLaVA 都认识到整合文本和视觉信息的重要性。 但是,这些方法专注于桥接不同的模态,而我们的方法利用文本模态来引导和优化视觉模态。 这种对齐使 VLM 的操作更加符合现实世界场景中人类行为的目的驱动的逻辑。

VLM 中的视觉编码器

为了使 LLM 能够从输入的视觉图像中提取更多信息,人们提出了各种利用视觉特征的策略。DenseConnector(Yao 等人,2024) 使用密集连接来连接不同级别的视觉特征,并将组合后的特征馈送到连接器中。TokenPacker(Li 等人,2024a) 合并了来自高分辨率分支的视觉特征和来自低分辨率分支的视觉特征,以生成压缩的视觉标记。Idefics2(Laurençon 等人,2024) 使用感知器结构压缩视觉特征,与其他方法相比,显著减少了视觉标记的数量。 像 Mini-Gemini(Li 等人,2024b)、LLaVA-Next (Liu 等人,2024b)、Qwen-VL (Bai 等人,2023b) 和 InterVLM (Dong 等人,2024) 这样的方法利用高分辨率图像来捕获更精细的视觉特征细节。ImageBind-LLM(Han 等人,2023) 和 Llama3.1 (Meta AI,2024b) 探讨了将视觉模态特征注入 LLM,前者使用可训练的门控模块将视觉特征添加到单词标记,后者通过周期性交叉注意在 LLM 的不同层引入视觉信息。

与专注于更好地利用现有视觉特征的方法不同,我们提出的 TG-LLaVA 旨在通过使用文本指导来增强视觉特征本身。 与将图像特征整合到 LLM 组件中的 ImageBind-LLM 和 Llama3.1 相反,我们的方法将文本整合到视觉编码器中。

方法

在本节中,我们首先回顾经典的 VLM 架构,以 LLaVA (Liu et al. 2024c) 为代表,概述 VLM 范式。 接着,我们详细介绍了提出的 TG-LLaVA 架构,重点介绍了两个文本引导模块的实现,即文本引导视觉特征优化掩码模块和文本引导细节感知模块。

重温 VLM

以 LLaVA (Liu et al. 2024c) 为例,VLM 的主要目标是有效地利用预训练的 LLM 和视觉模型的能力。 这种框架的三个关键组件可以定义如下:

1) 视觉编码器 Ev 通常使用预训练的视觉 Transformer(如 CLIP),旨在将输入图像 𝐈∈ℝH×W×C 分割成大小相同的多个补丁,并进一步将其编码为视觉特征 𝐅i∈ℝN×D。 这里,H 和 W 代表输入图像的大小,C 表示通道数,N 对应于输出特征中的补丁数,D 代表每个编码补丁的特征维度。 当补丁大小为 P,N=H⁢W/P2 时。2) 连接器 C(也称为投影器)由两个线性层组成,中间有一个 GELU 激活函数。 它的目的是将视觉特征映射到 LLM 的嵌入空间,将 𝐅i 转换为视觉符元 𝐓v。3) LLM L 使用词元化器和文本嵌入模块将文本数据依次转换为词元 ID 及其相应的嵌入词元 𝐓t,有效地将语言转换为其输入的特征空间。 在 VLM 架构中,这些文本词元 𝐓t 与连接器处理的对齐的视觉词元 𝐓v 连接,形成 LLM 进行后续预测的输入。 对于长度为 L 的序列,VLM 预测目标答案词元 𝐓a={ti}i=1L 的概率可以形式化为:

www.zeeklog.com  - TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

其中 θ 代表 VLM 中所有可训练参数。 在这种 VLM 预测范式中,视觉特征是通过 Ev 对原始输入图像进行编码直接获得的,没有任何与文本模态的交互。 这种方法与人类行为的目标驱动性质形成对比。 根据文本指令优化编码后的特征更有利于使 VLM 生成准确的响应。

www.zeeklog.com  - TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

图 3: 文本引导的视觉特征优化掩码模块的说明。

文本引导的 LLaVA

受人类在视觉问答场景中使用的推理逻辑的启发,我们设计了 TG-LLaVA,这是一种新颖的方法,它优化了视觉特征以使 VLM 的推理过程更符合目标驱动的人类行为,从而进一步增强了 VLM 的能力。 如图 2 所示,TG-LLaVA 主要由两个部分组成:文本引导的视觉特征优化掩码 (TG-FOM) 和文本引导的细节感知器 (TG-DP)。 前者使用可学习的潜在变量来解析来自文本指令的全局信息,并将其作为掩码附加到视觉编码器的输出,根据文本指令优化特征。 后者采用另一组潜在变量,首先与来自文本指令的详细信息进行交互,然后根据这些指令从输入图像的高分辨率补丁中提取细粒度的细节。 这些细节与原始特征连接在一起,进一步细化了 VLM 的视觉模态输入。 本方法的具体细节将在以下部分中详细阐述。

www.zeeklog.com  - TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

图 4: 文本引导的细节感知器模块的说明。

文本引导的视觉特征优化掩码

在当前的 VLM 中,视觉表示通常仅源于视觉编码器 Ev 的最后一层特征。 通过此管道获得的特征包含输入图像的全局信息 𝐈。 然而,相应的文本指令通常侧重于图像中的特定局部目标。 因此,当遇到无关甚至矛盾的信息时,与这些焦点目标相关的信息很容易受到损害,导致 VLM 出现扭曲的判断。 为了解决这个问题,我们设计了 TG-FOM 模块,以根据文本指令优化视觉特征,从而赋予 VLM 目的驱动的类人行为优势。 图 3 说明了 FOM 模块的具体框架。

我们首先初始化一组可学习的潜在嵌入 𝐋m,其数量与视觉符元相同。 这些潜伏变量的目的是从文本指令中提取语言信息,并将其作为掩码添加到原始特征中。 在这里,我们设计了一个单层 Q-former 来解析文本指令中的语义信息,作为全局文本和视觉特征之间的桥梁。 在这种结构中,交叉注意力层将 CLIP 文本编码器 Et 编码的池化文本指令特征 𝐅tp 作为键和值,用于与查询 𝐋m 交互,最终输出是根据文本信息生成的掩码,然后应用于视觉特征。 我们还引入了零初始化线性层,以确保对原始视觉特征的优化是一个渐进的过程。 此过程可以形式化为:

www.zeeklog.com  - TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

其中 𝐌t 表示通过可学习的 𝐋m、Across 和 Aself 从文本指令中提取语义信息获得的掩码,分别表示交叉注意力和自注意力模块,FFN 表示前馈神经网络,Z 表示用作特征添加缓冲区的零初始化线性层,𝐅i∗ 表示通过文本指导优化的视觉特征。

文本引导细节感知器

在观察图像时,除了根据指令选择焦点之外,人类还可以自动调整其焦点以获取更详细的信息。 遵循这个想法,我们设计了 TG-DP,它负责捕获指令相关的细节。

如图 2 所示,我们将原始图像 𝐈 放大,以保留更多细节,然后将其划分为与原始图像大小匹配的补丁。 这种设计确保我们能够通过对视觉编码器的一次调用来提取所有视觉特征。 在获得这些补丁的视觉特征后,我们添加位置嵌入和一个可学习的 MLP 层来恢复在分割操作期间被破坏的空间结构信息,得到校正后的视觉特征 𝐅ih。 到目前为止,包含详细信息的视觉标记已准备就绪。 这些视觉标记将与可学习的潜在嵌入 𝐋h 和细粒度的文本指令特征 𝐅tg 一起输入 TG-DP 模块,其中它们将根据文本的指导进行选择和整合。

如图 4 所示,我们设置 𝐋h 与文本编码器 Et 输出的 𝐅tg 交互。 这里,𝐋h 的数量远小于原始视觉标记的数量,确保输入到 LLM 的视觉标记不会显著增加,从而保持推断效率。 消融研究表明,这种压缩不会对最终结果产生负面影响。

提出的 TG-DP 模块包含两个感知层:

第一个感知层负责解析细粒度的文本以生成文本指导标记。 它接收 𝐋h 和 𝐅tg,保持 𝐋h 作为查询,𝐅tg 作为键和值,区别在于 𝐅tg 与 𝐋h 连接在一起。

第二层负责在细粒度文本的指导下生成细节感知标记。 在第二层中,键和值被 𝐅ih 替换,使用通过第一层解析的文本指令特征作为查询进行第二次交互。 第二层的输出是压缩后的视觉标记 𝐅ih。

由于 𝐅ih 的特征空间与原始 VLM 视觉特征之间存在显著差异,我们为 𝐅ih 设计了一个专用连接器 Ch。 整个过程可以形式化为:

www.zeeklog.com  - TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

其中 L⁢i 表示 DP 模块内的 it⁢h 层,𝐅L1 是第一层的输出,CAT 表示连接操作。 BNL⁢i⁢(i∈(1,2)) 表示绑定网络,可以形式化为:

www.zeeklog.com  - TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

概述

此时,在输入文本的指导下,我们已经获得了优化的视觉特征 𝐅i∗ 以及详细的感知符元 𝐅ih。 然后,我们将从原始 VLM 连接器 C 中获得的特征与 𝐅ih 连接起来,共同形成最终的视觉符元 𝐓vfin,作为 VLM 的输入。VLM 的最终预测过程可以表示如下:

www.zeeklog.com  - TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

结论

在本文中,我们介绍了 TG-LLaVA,一种利用文本指导视觉编码器的创新型 VLM 优化技术。 通过模拟人类类似目的驱动的逻辑,我们利用可学习的嵌入来分析文本并增强视觉编码器。 我们的实验表明,TG-LLaVA 优于类似的方法,并且可以适应各种框架,始终带来改进。 这种文本引导的视觉编码器增强为推进 VLM 开辟了一条新途径。 对于未来的工作,我们旨在进一步完善由文本引导的视觉特征提取过程,以实现更好的性能。

Read more

60个“特征工程”计算函数(Python代码)

60个“特征工程”计算函数(Python代码)

转自:coggle数据科学 近期一些朋友询问我关于如何做特征工程的问题,有没有什么适合初学者的有效操作。 特征工程的问题往往需要具体问题具体分析,当然也有一些暴力的策略,可以在竞赛初赛前期可以带来较大提升,而很多竞赛往往依赖这些信息就可以拿到非常好的效果,剩余的则需要结合业务逻辑以及很多其他的技巧,此处我们将平时用得最多的聚合操作罗列在下方。 最近刚好看到一篇文章汇总了非常多的聚合函数,就摘录在下方,供许多初入竞赛的朋友参考。 聚合特征汇总 pandas自带的聚合函数 * 其它重要聚合函数 其它重要聚合函数&分类分别如下。 def median(x):     return np.median(x) def variation_coefficient(x):     mean = np.mean(x)     if mean != 0:         return np.std(x) / mean     else:         return np.nan def variance(x):     return

By Ne0inhk
90w,确实可以封神了!

90w,确实可以封神了!

要说24年一定最热的技术,还得是AIGC! 前段时间阿里旗下的开源项目,登上GitHub热榜! AI大热,如今ChatGPT的优异表现,必然会出现各种细分场景应用的工具软件,和大量岗位项目! 山雨欲来风满楼,强人工智能的出现,所有科技公司已经开始巨量扩招此领域的人才。算法的岗位,近三个月已经增长68%!这件事在HR届也是相当震撼的。 目前各行各业都不景气的市场,人工智能岗位却一直保持常青!甚至同属AI边缘岗都比其他岗薪资高40%! 与此同时,AI算法岗上岸也不简单,竞争激烈,好公司核心岗位不用说,谁都想去。 所以事实就是,想要上岸,门槛也逐渐变高,项目经历、实习经历都很重要,越早明白这个道理就越能提前建立起自己的优势。 但我在b站逛知识区的时候,经常看到有些同学,因为一些客观原因导致无法参加实习,这种情况下,如果你想提升背景,增加项目经历的话,可以试试这个《CV/NLP 算法工程师培养计划》。 目前已经有上千位同学通过该计划拿到offer了,最新一期学员就业薪资最高能拿到78K!年薪94w! 优势就是有BAT大厂讲师带领,手把手带做AI真实企业项目(包含CV、NLP等

By Ne0inhk
再见nohup!试试这个神器,Python Supervisor!

再见nohup!试试这个神器,Python Supervisor!

👇我的小册 45章教程:() ,原价299,限时特价2杯咖啡,满100人涨10元。 作者丨Ais137 https://juejin.cn/post/7354406980784373798 1. 概述 Supervisor 是一个 C/S 架构的进程监控与管理工具,本文主要介绍其基本用法和部分高级特性,用于解决部署持久化进程的稳定性问题。 2. 问题场景 在实际的工作中,往往会有部署持久化进程的需求,比如接口服务进程,又或者是消费者进程等。这类进程通常是作为后台进程持久化运行的。 一般的部署方法是通过 nohup cmd & 命令来部署。但是这种方式有个弊端是在某些情况下无法保证目标进程的稳定性运行,有的时候 nohup 运行的后台任务会因为未知原因中断,从而导致服务或者消费中断,进而影响项目的正常运行。 为了解决上述问题,通过引入 Supervisor 来部署持久化进程,提高系统运行的稳定性。 3. Supervisor 简介 Supervisor is a client/

By Ne0inhk
第一本给程序员看的AI Agent图书上市了!

第一本给程序员看的AI Agent图书上市了!

AI Agent火爆到什么程度? OpenAI创始人奥特曼预测,未来各行各业,每一个人都可以拥有一个AI Agent;比尔·盖茨在2023年层预言:AI Agent将彻底改变人机交互方式,并颠覆整个软件行业;吴恩达教授在AI Ascent 2024演讲中高赞:AI Agent是一个令人兴奋的趋势,所有从事AI开发的人都应该关注。而国内的各科技巨头也纷纷布局AI Agent平台,如:钉钉的AI PaaS、百度智能云千帆大模型平台等等。 Agent 是未来最重要的智能化工具。对于程序员来说,是时候将目光转向大模型的应用开发了,率先抢占AI的下一个风口AI Agent。 小异带来一本新书《大模型应用开发 动手做 AI Agent》,这本书由《GPT图解》的作者黄佳老师创作,从0到1手把手教你做AI Agent。现在下单享受5折特惠! ▼点击下方,即可5折起购书 有这样一本秘籍在手,程序员们这下放心了吧,让我们先来揭开 Agent 的神秘面纱。 AI Agent 面面观

By Ne0inhk