阿里 OmniSearch：自适应规划代理在多模态检索增强生成中的应用

综述由AI生成阿里提出 OmniSearch 自适应规划代理，用于多模态检索增强生成（mRAG）。该框架通过构建 Dyn-VQA 数据集解决动态问题检索难题，将复杂问题分解为子问题链。实验表明 OmniSearch 在多个领域优于现有启发式方法，尤其在结合 GPT-4V 时表现显著。研究指出图像标题对性能提升贡献最大，并探讨了未来改进方向。

修罗发布于 2025/2/7更新于 2026/6/220 浏览

研究背景

研究问题：这篇文章要解决的问题是如何有效地进行多模态检索增强生成（mRAG），以缓解多模态大型语言模型（MLLMs）中的'幻觉'问题。现有的启发式 mRAG 方法通常预定义了固定的检索过程，导致两个主要问题：非自适应检索查询和过载检索查询。

研究难点：该问题的研究难点包括：现有知识寻求视觉问答（VQA）数据集无法充分反映启发式 mRAG 在获取复杂知识时的刚性问题；动态问题的复杂性使得现有方法难以提供足够且精确的相关知识。

相关工作：该问题的研究相关工作有：Zhao 等人（2024）提出的 mRAG 方法，Gao 等人（2023）的研究，以及 Bai 等人（2024）的工作。这些方法虽然在某些 VQA 数据集上表现出色，但在处理动态问题时存在不足。

研究方法

这篇论文提出了自我自适应规划代理 OmniSearch，用于解决多模态检索增强生成中的刚性问题。具体来说，

**数据集构建：**首先，构建了 Dyn-VQA 数据集，包含 1452 个动态问题，这些问题的答案会快速变化，需要多模态知识和多跳推理。

**OmniSearch 框架：**OmniSearch 的核心思想是模仿人类在解决问题时的行为，将复杂的多元模态问题动态分解为带有检索动作的子问题链。具体包括三个模块：

**规划代理：**负责制定子问题和后续检索动作。每个计划动作包括四个关键部分：自思、子问题、检索 API 和 API 查询。
**检索器：**执行实际的检索操作，包括网页搜索、带文本的图像搜索和带图像的图像搜索。
**子问题求解器：**根据检索内容总结并尝试回答子问题，然后将反馈提供给规划代理。

OmniSearch 可以与任意 MLLM 配合使用，增强其解决复杂动态问题的能力。OmniSearch 基于闭源的 GPT-4V 和开源的 Qwen-VL-Chat 分别开发了两个版本。

实验设计

**数据收集：**Dyn-VQA 数据集通过专业 AI 研究人员手动标注，包含约 1.5K 个问题，覆盖 9 个领域，涵盖三种需要复杂动态检索的问题类型：答案快速变化的问题、需要多模态知识的问题和多跳问题。

**实验设置：**选择了几种先进的 MLLMs 作为骨干模型，包括 Qwen-VL-7B-Chat、GPT-4V 和 Qwen-VL-Max。评估指标为自动化指标 F1-Recall，计算模型生成响应与真实答案之间的公共令牌比率。

**参数配置：**使用 LoRA 进行参数高效微调，学习率为 1e-4，权重衰减为 0.1，训练批次大小为 4，梯度累积步长为 8，最大序列长度为 8192。

结果与分析

**主要结果：**OmniSearch（GPT-4V）显著优于其他模型，包括最先进的 MLLMs 和商业生成搜索引擎。Qwen-VL-Chat 基础的 OmniSearch 甚至超过了较大的 GPT-4V 配备的两步启发式 mRAG。

不同领域的性能比较：在大多数领域中，OmniSearch 的性能随着领域复杂性的增加而下降。例如，在交通领域，OmniSearch 的表现不如基于 GPT-4V 的方法，主要是由于交通领域的长尾属性。

检索内容的影响：实验表明，检索内容的每一部分都对整体性能有贡献，尤其是图像标题对最终性能的提升最大。

不同评估指标的一致性：F1-Recall、GPT 基础准确性和人类基础准确性三种评估指标之间存在正相关关系，F1-Recall 作为自动化指标具有较低的计算成本和更好的可扩展性。

总体结论

这篇论文研究了多模态检索增强生成（mRAG），并提出了自我自适应规划代理 OmniSearch，用于解决现有启发式 mRAG 方法中的刚性问题。通过构建 Dyn-VQA 数据集并进行广泛的实验，证明了 OmniSearch 的有效性，并指出了未来研究的方向，包括生成更人性化的搜索逻辑和改进检索技术。

阿里 OmniSearch：自适应规划代理在多模态检索增强生成中的应用

研究背景

研究方法

实验设计

结果与分析

总体结论

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

阿里 OmniSearch：自适应规划代理在多模态检索增强生成中的应用

研究背景

研究方法

实验设计

结果与分析

总体结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具