剑桥大学博士论文：检索增强生成（RAG）如何提升视觉问答

综述由AI生成检索增强生成（RAG）技术通过整合外部知识库，有效解决了大型语言模型在特定领域知识缺失及生成幻觉问题。基于剑桥大学博士论文，探讨了 RAG 在多模态问答（VQA）中的应用，包括 RA-VQA 框架、FVQA 2.0 数据集构建、细粒度多模态检索器 FLMR 及 TableQA 中的检索策略。研究展示了联合训练检索器与生成器、引入对抗样本增强鲁棒性以及显式信号后交互检索等方法，显著提升了视觉问答系统的准确性与效率，为信息检索和多模态理解奠定了坚实基础。

战神发布于 2025/2/6更新于 2026/6/219 浏览

背景与挑战

开发能够处理复杂任务的人工智能系统的需求推动了深度学习的快速发展，尤其是自 2016 年以来，神经网络模型已成为主流方法。这些模型的应用范围广泛，从推荐系统到语音识别，彻底变革了多个领域。然而，仍然存在一些挑战，特别是在融合大量特定领域知识和减少大语言模型固有的生成幻觉方面。

2021 年，GPT-3 的发布以及一系列开源大型语言模型，证实了在数据驱动方法下扩展模型参数和训练数据的有效性，正式开启了以大模型为核心的研究浪潮。多模态是指整合来自不同来源的异构数据，通常包括语言、视觉和音频信息，广义上还延伸到图数据和表格（结构化）数据。以 GPT-4 为代表的一系列多模态大型模型的出现，意味着大型模型正逐渐获得强大的视觉 - 语言理解和推理能力。

然而，各种研究表明，尽管大型模型可以基于自身知识处理各种复杂任务，但其能够存储和熟练应用的知识是有限的，特别是在复杂和特定领域的知识方面。当前的大型模型存在生成幻觉的问题，在回答问题时经常生成错误或模棱两可的内容，并且在需要专业知识或世界知识的场景中表现不佳。只有当 AI 系统认识到自身的局限性，并且在缺乏相关信息时能够利用外部资源获取知识时，它才真正具备'真正的智慧'。

检索增强生成（RAG）解决方案

在此背景下，检索增强生成（Retrieval-Augmented Generation，RAG）再次受到关注。RAG 是一种将信息检索系统整合到大型模型生成过程中的流程。它利用检索系统从知识库中提取必要的知识，并将这些信息提供给模型，从而使其能够基于外部检索的数据进行推理或回答问题。RAG 可以通过以下方式为大型模型的生成带来显著优势：

减少幻觉：通过明确呈现模型所需的知识，提供更准确的答案（例如，股票代码和产品信息）。
访问广泛知识：使模型能够访问更广泛的行业特定和世界知识，为模型配备特定领域的知识库，使其能够处理专业任务。
增强时效性：虽然模型的训练和参数更新通常需要较长时间，但信息更新的速度要快得多。模型从持续更新的数据库中提取最新信息进行问答，可以显著提高其相关性。

然而，在本文研究的初始阶段，多模态大型模型和多模态 RAG 系统的研究仍存在一些不足。知识密集型任务的多模态系统通常存在以下问题：

模型结构复杂，参数规模庞大，但在需要知识的多模态任务上表现不佳。
所使用的多模态信息检索系统性能较弱，召回率较低。
信息检索组件与检索增强生成模型之间的整合不佳，即使检索性能良好，回答性能也不理想。

RAG 视觉问答示意图

论文核心贡献

本论文探索了将检索增强生成（RAG）集成到多模态问答（QA）系统中的方法，以应对上述挑战。通过利用外部知识源，RAG 提高了模型的准确性并增强了对特定领域信息的访问能力。研究按以下顺序展开：

RA-VQA 框架

为了高效利用外部知识回答知识密集型的视觉问题，我们提出了 RA-VQA（检索增强视觉问答）框架，该框架专为知识驱动的视觉问答（KB-VQA）设计。我们展示了检索器和生成器模型联合训练在最大化性能方面的效果，解决了传统方法中检索与生成割裂的问题。

FVQA 2.0 数据集

FVQA（基于事实的视觉问答）2.0 引入了半自动标注的对抗样本，以解决数据分布不均衡问题并增强系统的鲁棒性，展示了在处理复杂场景方面的显著改进。这为评估模型在对抗环境下的表现提供了新的基准。

FLMR 检索器

开发了 FLMR（细粒度后交互多模态检索器）及其扩展版本 PreFLMR（预训练 FLMR），突显了后交互模型在实现卓越多模态检索性能方面的重要性。我们证明了所提出的模型能够捕捉查询与上下文之间的细粒度交互，在广泛的多模态检索任务中实现了高效和准确的检索。

多模态检索架构

TableQA 中的检索方法

随后，研究重点转向 TableQA 中的检索方法，引入了 ITR（内表检索器）用于封闭域场景，并提出了 LI-RAGE（带显式信号的后交互检索增强生成）用于开放域 TableQA 任务。两种框架在现有方法上表现出显著的性能提升。我们展示了在 TableQA 中整合检索方法显著推动了研究边界，提供了最先进的问答性能。