背景与挑战
开发能够处理复杂任务的人工智能系统的需求推动了深度学习的快速发展,尤其是自 2016 年以来,神经网络模型已成为主流方法。这些模型的应用范围广泛,从推荐系统到语音识别,彻底变革了多个领域。然而,仍然存在一些挑战,特别是在融合大量特定领域知识和减少大语言模型固有的生成幻觉方面。
2021 年,GPT-3 的发布以及一系列开源大型语言模型,证实了在数据驱动方法下扩展模型参数和训练数据的有效性,正式开启了以大模型为核心的研究浪潮。多模态是指整合来自不同来源的异构数据,通常包括语言、视觉和音频信息,广义上还延伸到图数据和表格(结构化)数据。以 GPT-4 为代表的一系列多模态大型模型的出现,意味着大型模型正逐渐获得强大的视觉 - 语言理解和推理能力。
然而,各种研究表明,尽管大型模型可以基于自身知识处理各种复杂任务,但其能够存储和熟练应用的知识是有限的,特别是在复杂和特定领域的知识方面。当前的大型模型存在生成幻觉的问题,在回答问题时经常生成错误或模棱两可的内容,并且在需要专业知识或世界知识的场景中表现不佳。只有当 AI 系统认识到自身的局限性,并且在缺乏相关信息时能够利用外部资源获取知识时,它才真正具备'真正的智慧'。
检索增强生成(RAG)解决方案
在此背景下,检索增强生成(Retrieval-Augmented Generation,RAG)再次受到关注。RAG 是一种将信息检索系统整合到大型模型生成过程中的流程。它利用检索系统从知识库中提取必要的知识,并将这些信息提供给模型,从而使其能够基于外部检索的数据进行推理或回答问题。RAG 可以通过以下方式为大型模型的生成带来显著优势:
- 减少幻觉:通过明确呈现模型所需的知识,提供更准确的答案(例如,股票代码和产品信息)。
- 访问广泛知识:使模型能够访问更广泛的行业特定和世界知识,为模型配备特定领域的知识库,使其能够处理专业任务。
- 增强时效性:虽然模型的训练和参数更新通常需要较长时间,但信息更新的速度要快得多。模型从持续更新的数据库中提取最新信息进行问答,可以显著提高其相关性。
然而,在本文研究的初始阶段,多模态大型模型和多模态 RAG 系统的研究仍存在一些不足。知识密集型任务的多模态系统通常存在以下问题:
- 模型结构复杂,参数规模庞大,但在需要知识的多模态任务上表现不佳。
- 所使用的多模态信息检索系统性能较弱,召回率较低。
- 信息检索组件与检索增强生成模型之间的整合不佳,即使检索性能良好,回答性能也不理想。

论文核心贡献
本论文探索了将检索增强生成(RAG)集成到多模态问答(QA)系统中的方法,以应对上述挑战。通过利用外部知识源,RAG 提高了模型的准确性并增强了对特定领域信息的访问能力。研究按以下顺序展开:
RA-VQA 框架
为了高效利用外部知识回答知识密集型的视觉问题,我们提出了 RA-VQA(检索增强视觉问答)框架,该框架专为知识驱动的视觉问答(KB-VQA)设计。我们展示了检索器和生成器模型联合训练在最大化性能方面的效果,解决了传统方法中检索与生成割裂的问题。
FVQA 2.0 数据集
FVQA(基于事实的视觉问答)2.0 引入了半自动标注的对抗样本,以解决数据分布不均衡问题并增强系统的鲁棒性,展示了在处理复杂场景方面的显著改进。这为评估模型在对抗环境下的表现提供了新的基准。
FLMR 检索器
开发了 FLMR(细粒度后交互多模态检索器)及其扩展版本 PreFLMR(预训练 FLMR),突显了后交互模型在实现卓越多模态检索性能方面的重要性。我们证明了所提出的模型能够捕捉查询与上下文之间的细粒度交互,在广泛的多模态检索任务中实现了高效和准确的检索。

TableQA 中的检索方法
随后,研究重点转向 TableQA 中的检索方法,引入了 ITR(内表检索器)用于封闭域场景,并提出了 LI-RAGE(带显式信号的后交互检索增强生成)用于开放域 TableQA 任务。两种框架在现有方法上表现出显著的性能提升。我们展示了在 TableQA 中整合检索方法显著推动了研究边界,提供了最先进的问答性能。

总结
通过细致的实验和创新,本论文不仅在多模态检索增强系统的理论理解上取得了进展,还提供了实用的框架和数据集,以应对不同领域问答中的关键挑战。在迈向有效 AI 系统的过程中,这些贡献为信息检索和多模态问答的未来发展奠定了坚实基础。未来的工作将继续优化检索与生成的协同机制,进一步提升系统在开放域复杂场景下的泛化能力。



