跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

多模态知识图谱增强多模态推理能力(ACL2024)

综述由AI生成针对大型语言模型在多模态推理中的幻觉及知识库不足问题,ACL 2024 提出了 MR-MKG 方法。该方法利用多模态知识图谱(MMKGs)通过跨模态学习丰富语义化知识。核心组件包括语言编码器、视觉编码器、KG 编码器、知识适配器及跨模态对齐模块。训练分为预训练和高级推理应用两阶段,且保持 LLM 和视觉编码器权重不变。在 ScienceQA 多模态问答和 MARS 多模态类比推理任务上的实验表明,MR-MKG 仅需训练少量参数即可超越现有 SOTA 方法,显著提升了多模态推理准确率。

HadoopMan发布于 2025/2/7更新于 2026/6/322 浏览
多模态知识图谱增强多模态推理能力(ACL2024)

多模态知识图谱增强多模态推理能力(ACL2024)

论文链接:https://arxiv.org/abs/2406.02030

发表会议:ACL 2024

1. 动机

大型语言模型(LLMs)在进行多模态推理时常常遇到幻觉和知识库中知识不足或过时的问题。现有的一些方法尝试通过使用文本知识图谱来缓解这些问题,但这些方法的单一模态知识限制了跨模态理解的全面性。为了克服这些限制,论文提出了一种利用多模态知识图谱(MMKGs)的 MR-MKG 方法,该方法通过跨模态学习丰富和语义化的知识,显著提升了 LLMs 的多模态推理能力。

2. 方法

如图 1 所示,MR-MKG 方法主要包含五部分:

语言编码器. 使用现成的大型语言模型(如 LLaMA 和 T5)的嵌入层作为语言编码器,并在训练和推理阶段保持不变。文本经过语言编码器处理后生成文本嵌入.

视觉编码器. 采用预训练的视觉编码器(如 CLIP)将图像转换为视觉特征。为了确保视觉特征与语言空间的兼容性,使用线性层实现的视觉适配器将视觉特征转换为视觉 - 语言嵌入。随后,利用单头注意力网络获得与文本嵌入关联的最终视觉特征.

KG 编码器. 给定文本或图像,MR-MKG 首先从多模态知识图谱(MMKG)中检索一个子图 G。然而,检索到的子图 G 可能引入噪声。作者采用了关系图注意力网络(RGAT)来考虑子图 G 的复杂结构对知识节点进行嵌入。具体来说,我们首先使用 CLIP 初始化节点和关系的嵌入,然后使用 RGAT 网络对子图 G 进行编码,生成知识节点嵌入.

知识适配器. 为了使大型语言模型(LLM)理解多模态知识节点嵌入,我们引入了一个知识适配器,将转换为 LLM 可以理解的文本嵌入。这个知识适配器旨在弥合多模态知识与文本之间的固有差距,促进更流畅的对齐。

跨模态对齐. 从子图 G 中随机选择一组图像实体,并提示模型将其与对应的文本实体进行精确匹配。所选图像对应的节点嵌入表示为,其相关文本节点的嵌入表示为。我们使用三元组损失进行校准。当一个图像实体的嵌入作为锚点时,其对应的文本实体嵌入作为正样本。同时,其他文本实体嵌入作为负样本。对齐的目标是最小化正样本与锚样本之间的距离,同时最大化负样本与锚样本之间的距离。

MR-MKG 的训练分为两个阶段:第一阶段是预训练,使模型具备基础的视觉能力和理解多模态知识图(MMKGs)的能力;第二阶段则是将模型应用于需要高级多模态推理的具体场景。需要注意的是,在整个训练过程中,LLM 和视觉编码器的权重保持不变。

3. 实验

3.1 实验细节

数据集:在 ScienceQA 数据集上进行了多模态问答任务实验,在 MARS 数据集上进行了多模态类比推理任务实验。多模态数据集 MMKG 与 ScienceQA 结合使用,而 MarKG 用于支持 MARS。

实现细节:在两个数据集上选择 ViT-L/32 作为视觉编码器,RGAT 作为知识嵌入模型。在 ScienceQA 任务中,我们采用 FLAN-T5 3B 和 FLAN-T5 11B 作为大型语言模型,并实现了多模态连锁思维提示方法(Multimodal-CoT)。为验证 MR-MKG 的通用性,还使用了 FLAN-UL2 19B 作为骨干模型。在 MARS 任务中,选择 LLaMA-2 7B 初始化模型。关于知识三元组检索,我们将三元组数量设置为 10 或 20,检索的跳跃距离保持为 1。所有实验均在 NVIDIA 8×A800-SXM4-80GB 机器上进行。

基线方法:在 ScienceQA 任务中,我们将方法与四类基线进行比较:零样本和小样本 GPT 模型,最新的 SOTA 方法 MM-Cot,代表性的端到端多模态大型语言模型 LLaVA,以及参数高效的方法如 LLaMA-Adapter 和 LaVIN。在 MARS 任务中,我们与两类基线方法进行比较:包括 IKRL、TransAE、RSME 等 MKGE 方法,以及多模态预训练 Transformer 模型(MPT)、VisualBERT、ViLT 和 MKGformer 等。每个基线方法都在 MarKG 上进行了预训练,提供了关于实体和关系的基本先验知识,以增强多模态推理能力。

3.2 主要实验结果

表 1 ScienceQA 数据集上的结果

从表 1 可以看出,在多模态问答任务中,MR-MKG 方法在平均准确率方面优于所有基线方法。即使零样本和小样本方法应用于像 GPT 这样流行的 LLM,仍然无法达到人类水平的表现。值得注意的是,GPT-4 由于其增强的多模态能力和更大的参数规模,相比 GPT-3.5 有显著提升。尽管 UnifiedQALarge(MM-CoT)达到了之前的 SOTA,它需要使用全部参数进行训练,导致高昂的训练成本。相比之下,MR-MKG 仅需训练少量参数就能取得更好的结果。

表 2 MARS 数据集上的结果

从表 2 可以看出,在多模态类比推理任务中,MR-MKG 在 MARS 数据集上显著优于所有其他方法。多模态知识图嵌入方法和多模态预训练 Transformer 模型的性能相对相近,其中 MKGformer 表现出较优的性能。相比之下,配备视觉适配器的视觉 LLaMA-2 7B 模型的结果与 MKGformer 相当,尽管 Hits@1 得分略低,但在其他指标上有所提升。这突显了视觉适配器组件的有效性和精心设计的优势。更值得一提的是,经过 MR-MKG 增强后,视觉 LLaMA-2 7B 在 Hits@1 得分上提高了 10.4%,并且在其他指标上也有显著改进。

4. 总结

在本文中,我们通过多模态知识图增强大型语言模型(LLMs)的多模态推理能力。我们提出的方法称为 MR-MKG,旨在利用多模态知识图(MMKGs)中丰富的知识(图像、文本和知识三元组)赋予 LLMs 高级的多模态推理能力。在多模态问答和多模态类比推理任务上的综合实验显示了 MR-MKG 方法的有效性,并在这些任务中取得了最先进的结果。

目录

  1. 多模态知识图谱增强多模态推理能力(ACL2024)
  2. 1. 动机
  3. 2. 方法
  4. 3. 实验
  5. 3.1 实验细节
  6. 3.2 主要实验结果
  7. 4. 总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • AI 民用化需要一场耐心的进化
  • 基于 Qwen3-ASR-1.7B 的博物馆 AR 导览语音转写与知识图谱方案
  • 医疗连续体机器人模块化控制界面设计与 Python 库应用
  • WorkBuddy 接入 QQ 机器人配置指南
  • LeetCode 48 旋转图像:二维矩阵原地顺时针旋转 90 度
  • GLM-4-9B 开源评测:关键指标对比 Llama-3-8B
  • 二分算法实战:查找元素范围与区间计数
  • HarmonyOS Next DevEco Studio 编译选项定制指南
  • 前端安全视角:解析 B 站 UUID 加密中 infoc 后缀的设计逻辑
  • OpenClaw 多端交互实测指南:Web、TUI 与钉钉集成
  • 大模型 LLM 学习路线图与核心技术详解
  • GitHub 启用双因素身份验证(2FA)配置指南
  • Windows本地部署Ollama与OpenClaw搭建AI工作流
  • Java 多线程基础:Thread 类与创建方式
  • Linux 多线程核心:资源划分与控制实战指南
  • DeepSeek-R1 大模型基于 MS-Swift 框架的部署与微调实战
  • Git 分支管理实战指南:从基础到团队协作规范
  • Ubuntu 22.04 下基于 ROS2 Humble 的 PX4 无人机仿真环境搭建
  • Agent Memory 相关文献追踪:异构存储与经验记忆
  • Mac 环境部署 OpenClaw 与本地大模型方案

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online