研究背景
研究问题:这篇文章要解决的问题是如何有效地进行多模态检索增强生成(mRAG),以缓解多模态大型语言模型(MLLMs)中的'幻觉'问题。现有的启发式 mRAG 方法通常预定义了固定的检索过程,导致两个主要问题:非自适应检索查询和过载检索查询。
研究难点:该问题的研究难点包括:现有知识寻求视觉问答(VQA)数据集无法充分反映启发式 mRAG 在获取复杂知识时的刚性问题;动态问题的复杂性使得现有方法难以提供足够且精确的相关知识。
相关工作:该问题的研究相关工作有:Zhao 等人(2024)提出的 mRAG 方法,Gao 等人(2023)的研究,以及 Bai 等人(2024)的工作。这些方法虽然在某些 VQA 数据集上表现出色,但在处理动态问题时存在不足。
研究方法
这篇论文提出了自我自适应规划代理 OmniSearch,用于解决多模态检索增强生成中的刚性问题。具体来说,
**数据集构建:**首先,构建了 Dyn-VQA 数据集,包含 1452 个动态问题,这些问题的答案会快速变化,需要多模态知识和多跳推理。
**OmniSearch 框架:**OmniSearch 的核心思想是模仿人类在解决问题时的行为,将复杂的多元模态问题动态分解为带有检索动作的子问题链。具体包括三个模块:
- **规划代理:**负责制定子问题和后续检索动作。每个计划动作包括四个关键部分:自思、子问题、检索 API 和 API 查询。
- **检索器:**执行实际的检索操作,包括网页搜索、带文本的图像搜索和带图像的图像搜索。
- **子问题求解器:**根据检索内容总结并尝试回答子问题,然后将反馈提供给规划代理。
OmniSearch 可以与任意 MLLM 配合使用,增强其解决复杂动态问题的能力。OmniSearch 基于闭源的 GPT-4V 和开源的 Qwen-VL-Chat 分别开发了两个版本。
实验设计
**数据收集:**Dyn-VQA 数据集通过专业 AI 研究人员手动标注,包含约 1.5K 个问题,覆盖 9 个领域,涵盖三种需要复杂动态检索的问题类型:答案快速变化的问题、需要多模态知识的问题和多跳问题。
**实验设置:**选择了几种先进的 MLLMs 作为骨干模型,包括 Qwen-VL-7B-Chat、GPT-4V 和 Qwen-VL-Max。评估指标为自动化指标 F1-Recall,计算模型生成响应与真实答案之间的公共令牌比率。
**参数配置:**使用 LoRA 进行参数高效微调,学习率为 1e-4,权重衰减为 0.1,训练批次大小为 4,梯度累积步长为 8,最大序列长度为 8192。
结果与分析
- **主要结果:**OmniSearch(GPT-4V)显著优于其他模型,包括最先进的 MLLMs 和商业生成搜索引擎。Qwen-VL-Chat 基础的 OmniSearch 甚至超过了较大的 GPT-4V 配备的两步启发式 mRAG。
不同领域的性能比较:在大多数领域中,OmniSearch 的性能随着领域复杂性的增加而下降。例如,在交通领域,OmniSearch 的表现不如基于 GPT-4V 的方法,主要是由于交通领域的长尾属性。
检索内容的影响:实验表明,检索内容的每一部分都对整体性能有贡献,尤其是图像标题对最终性能的提升最大。
不同评估指标的一致性:F1-Recall、GPT 基础准确性和人类基础准确性三种评估指标之间存在正相关关系,F1-Recall 作为自动化指标具有较低的计算成本和更好的可扩展性。
总体结论
这篇论文研究了多模态检索增强生成(mRAG),并提出了自我自适应规划代理 OmniSearch,用于解决现有启发式 mRAG 方法中的刚性问题。通过构建 Dyn-VQA 数据集并进行广泛的实验,证明了 OmniSearch 的有效性,并指出了未来研究的方向,包括生成更人性化的搜索逻辑和改进检索技术。


