多模态 RAG 在企业数智化场景中的设计与优化

2024 年多模态大模型与 RAG 的演进

2024 年可以算得上是多模态大模型取得井喷的一年。5 月发布的 GPT-4o，让多模态大模型进一步走进了我们的视野。如果说在 2023 年，多模态的应用还停留在传统的简单图像搜索，到 2024 年，则真正开始了对多模态数据的深度理解。

RAG 在企业数智化场景下的设计与改进

从对图像的理解角度来看，2024 年已经取得了长足进步。随之而来的，就是多模态 RAG（Retrieval-Augmented Generation），是否也会开始落地并产生价值？我们先来看看多模态 RAG 都有哪些使用场景。所谓多模态 RAG 的概念并不稀罕，在 2023 年 RAG 概念刚火热起来不久，就有了多模态 RAG 的场景描述，例如针对个人相册、企业宣传素材的搜索需求。然而，这种搜索需求更多是把存在很久的向量搜索的使用场景如图像搜索、以图搜图等安插到了多模态 RAG 之上，并没有真正从业务角度来逐步挖掘多模态 RAG 的场景价值。

随着 RAG 技术在 2024 年快速发展，更多的企业已经把 RAG 看成是大模型在 B 端应用的标准配置。来自于企业内部的文档问答，已经解锁出大量使用需求和场景。在这些文档中，有相当一部分包含各类复杂的图表内容，它们本质上就是各种多模态数据。如何对这些数据进行有效问答，成了挖掘企业内部数据金矿的刚性需求来源之一。

技术路线一：广义 OCR 方案

针对这类数据，一种解决方案是采用视觉模型，利用广义上的 OCR 技术，把这些多模态文档的布局首先识别出来，再根据不同语义区块，调用相应的模型来做处理。

RAG 在企业数智化场景下的设计与改进

这个流程中，得到的图片和表格，都属于典型的多模态数据。因此，采用相应的模型，将它们转成文本数据，就解决了对多模态数据的理解问题。从原理上来说，这样的技术也分为两代：

第一代：专用视觉模型

第一代是采用各类视觉模型，针对不同类型的图表数据分别进行训练，将它们转化为文字。例如针对表格处理的，有表格识别模型；针对流程图、饼图、柱状图等企业图表，也需要相应的模型来处理。这些视觉模型，本质上是个分类模型或检测模型，依赖于特定领域的标注数据。

第二代：生成式模型

第二代则采用生成式模型。不同于流行的 LLM 采用的 Decoder Only 架构，基于 Transformer 的多模态生成式模型，通常采用 Encoder-Decoder 架构。Encoder 的输入端是各种图表，Decoder 的输出就是各类文本。依托于这种广义的 OCR 技术，可以把一个多模态 RAG 系统变成一个标准的 RAG 系统。在我们的开源和商业版的 RAGFlow 中，分别基于这两类技术提供了相应的实现。

技术路线二：VLM 直接理解方案

另一种解决方案，则直接依托于多模态模型本身，简称 VLM（Vision Language Model）。输入文字和图像，输出得到基于图像和文字内容理解得到的答案文字。

RAG 在企业数智化场景下的设计与改进

如前文所提到，VLM 在 2024 年取得了显著进展，它们已经大大超越了过去图像搜索这种简单的场景。我们先以 Google 在 7 月开源的 PaliGemma 为例，看看对一个复杂的多模态文档理解的效果。上传一张包含柱状图、饼图以及各类文本的复杂 PDF 截图，然后针对图表进行提问，可以看到，PaliGemma 给出了准确的回答。

RAG 在企业数智化场景下的设计与改进