多模态知识图谱增强多模态推理能力(ACL2024)
发表会议:ACL 2024
1. 动机
大型语言模型(LLMs)在进行多模态推理时常常遇到幻觉和知识库中知识不足或过时的问题。现有的一些方法尝试通过使用文本知识图谱来缓解这些问题,但这些方法的单一模态知识限制了跨模态理解的全面性。为了克服这些限制,论文提出了一种利用多模态知识图谱(MMKGs)的 MR-MKG 方法,该方法通过跨模态学习丰富和语义化的知识,显著提升了 LLMs 的多模态推理能力。
2. 方法
如图 1 所示,MR-MKG 方法主要包含五部分:
语言编码器. 使用现成的大型语言模型(如 LLaMA 和 T5)的嵌入层作为语言编码器,并在训练和推理阶段保持不变。文本经过语言编码器处理后生成文本嵌入.
视觉编码器. 采用预训练的视觉编码器(如 CLIP)将图像转换为视觉特征。为了确保视觉特征与语言空间的兼容性,使用线性层实现的视觉适配器将视觉特征转换为视觉 - 语言嵌入。随后,利用单头注意力网络获得与文本嵌入关联的最终视觉特征.
KG 编码器. 给定文本或图像,MR-MKG 首先从多模态知识图谱(MMKG)中检索一个子图 G。然而,检索到的子图 G 可能引入噪声。作者采用了关系图注意力网络(RGAT)来考虑子图 G 的复杂结构对知识节点进行嵌入。具体来说,我们首先使用 CLIP 初始化节点和关系的嵌入,然后使用 RGAT 网络对子图 G 进行编码,生成知识节点嵌入.
知识适配器. 为了使大型语言模型(LLM)理解多模态知识节点嵌入,我们引入了一个知识适配器,将转换为 LLM 可以理解的文本嵌入。这个知识适配器旨在弥合多模态知识与文本之间的固有差距,促进更流畅的对齐。
跨模态对齐. 从子图 G 中随机选择一组图像实体,并提示模型将其与对应的文本实体进行精确匹配。所选图像对应的节点嵌入表示为,其相关文本节点的嵌入表示为。我们使用三元组损失进行校准。当一个图像实体的嵌入作为锚点时,其对应的文本实体嵌入作为正样本。同时,其他文本实体嵌入作为负样本。对齐的目标是最小化正样本与锚样本之间的距离,同时最大化负样本与锚样本之间的距离。
MR-MKG 的训练分为两个阶段:第一阶段是预训练,使模型具备基础的视觉能力和理解多模态知识图(MMKGs)的能力;第二阶段则是将模型应用于需要高级多模态推理的具体场景。需要注意的是,在整个训练过程中,LLM 和视觉编码器的权重保持不变。
3. 实验
3.1 实验细节
数据集:在 ScienceQA 数据集上进行了多模态问答任务实验,在 MARS 数据集上进行了多模态类比推理任务实验。多模态数据集 MMKG 与 ScienceQA 结合使用,而 MarKG 用于支持 MARS。
实现细节:在两个数据集上选择 ViT-L/32 作为视觉编码器,RGAT 作为知识嵌入模型。在 ScienceQA 任务中,我们采用 FLAN-T5 3B 和 FLAN-T5 11B 作为大型语言模型,并实现了多模态连锁思维提示方法(Multimodal-CoT)。为验证 MR-MKG 的通用性,还使用了 FLAN-UL2 19B 作为骨干模型。在 MARS 任务中,选择 LLaMA-2 7B 初始化模型。关于知识三元组检索,我们将三元组数量设置为 10 或 20,检索的跳跃距离保持为 1。所有实验均在 NVIDIA 8×A800-SXM4-80GB 机器上进行。
基线方法:在 ScienceQA 任务中,我们将方法与四类基线进行比较:零样本和小样本 GPT 模型,最新的 SOTA 方法 MM-Cot,代表性的端到端多模态大型语言模型 LLaVA,以及参数高效的方法如 LLaMA-Adapter 和 LaVIN。在 MARS 任务中,我们与两类基线方法进行比较:包括 IKRL、TransAE、RSME 等 MKGE 方法,以及多模态预训练 Transformer 模型(MPT)、VisualBERT、ViLT 和 MKGformer 等。每个基线方法都在 MarKG 上进行了预训练,提供了关于实体和关系的基本先验知识,以增强多模态推理能力。
3.2 主要实验结果
表 1 ScienceQA 数据集上的结果
从表 1 可以看出,在多模态问答任务中,MR-MKG 方法在平均准确率方面优于所有基线方法。即使零样本和小样本方法应用于像 GPT 这样流行的 LLM,仍然无法达到人类水平的表现。值得注意的是,GPT-4 由于其增强的多模态能力和更大的参数规模,相比 GPT-3.5 有显著提升。尽管 UnifiedQALarge(MM-CoT)达到了之前的 SOTA,它需要使用全部参数进行训练,导致高昂的训练成本。相比之下,MR-MKG 仅需训练少量参数就能取得更好的结果。
表 2 MARS 数据集上的结果
从表 2 可以看出,在多模态类比推理任务中,MR-MKG 在 MARS 数据集上显著优于所有其他方法。多模态知识图嵌入方法和多模态预训练 Transformer 模型的性能相对相近,其中 MKGformer 表现出较优的性能。相比之下,配备视觉适配器的视觉 LLaMA-2 7B 模型的结果与 MKGformer 相当,尽管 Hits@1 得分略低,但在其他指标上有所提升。这突显了视觉适配器组件的有效性和精心设计的优势。更值得一提的是,经过 MR-MKG 增强后,视觉 LLaMA-2 7B 在 Hits@1 得分上提高了 10.4%,并且在其他指标上也有显著改进。


