2024 年多模态大模型与 RAG 的演进
2024 年可以算得上是多模态大模型取得井喷的一年。5 月发布的 GPT-4o,让多模态大模型进一步走进了我们的视野。如果说在 2023 年,多模态的应用还停留在传统的简单图像搜索,到 2024 年,则真正开始了对多模态数据的深度理解。

从对图像的理解角度来看,2024 年已经取得了长足进步。随之而来的,就是多模态 RAG(Retrieval-Augmented Generation),是否也会开始落地并产生价值?我们先来看看多模态 RAG 都有哪些使用场景。所谓多模态 RAG 的概念并不稀罕,在 2023 年 RAG 概念刚火热起来不久,就有了多模态 RAG 的场景描述,例如针对个人相册、企业宣传素材的搜索需求。然而,这种搜索需求更多是把存在很久的向量搜索的使用场景如图像搜索、以图搜图等安插到了多模态 RAG 之上,并没有真正从业务角度来逐步挖掘多模态 RAG 的场景价值。
随着 RAG 技术在 2024 年快速发展,更多的企业已经把 RAG 看成是大模型在 B 端应用的标准配置。来自于企业内部的文档问答,已经解锁出大量使用需求和场景。在这些文档中,有相当一部分包含各类复杂的图表内容,它们本质上就是各种多模态数据。如何对这些数据进行有效问答,成了挖掘企业内部数据金矿的刚性需求来源之一。
技术路线一:广义 OCR 方案
针对这类数据,一种解决方案是采用视觉模型,利用广义上的 OCR 技术,把这些多模态文档的布局首先识别出来,再根据不同语义区块,调用相应的模型来做处理。

这个流程中,得到的图片和表格,都属于典型的多模态数据。因此,采用相应的模型,将它们转成文本数据,就解决了对多模态数据的理解问题。从原理上来说,这样的技术也分为两代:
第一代:专用视觉模型
第一代是采用各类视觉模型,针对不同类型的图表数据分别进行训练,将它们转化为文字。例如针对表格处理的,有表格识别模型;针对流程图、饼图、柱状图等企业图表,也需要相应的模型来处理。这些视觉模型,本质上是个分类模型或检测模型,依赖于特定领域的标注数据。
第二代:生成式模型
第二代则采用生成式模型。不同于流行的 LLM 采用的 Decoder Only 架构,基于 Transformer 的多模态生成式模型,通常采用 Encoder-Decoder 架构。Encoder 的输入端是各种图表,Decoder 的输出就是各类文本。依托于这种广义的 OCR 技术,可以把一个多模态 RAG 系统变成一个标准的 RAG 系统。在我们的开源和商业版的 RAGFlow 中,分别基于这两类技术提供了相应的实现。
技术路线二:VLM 直接理解方案
另一种解决方案,则直接依托于多模态模型本身,简称 VLM(Vision Language Model)。输入文字和图像,输出得到基于图像和文字内容理解得到的答案文字。

如前文所提到,VLM 在 2024 年取得了显著进展,它们已经大大超越了过去图像搜索这种简单的场景。我们先以 Google 在 7 月开源的 PaliGemma 为例,看看对一个复杂的多模态文档理解的效果。上传一张包含柱状图、饼图以及各类文本的复杂 PDF 截图,然后针对图表进行提问,可以看到,PaliGemma 给出了准确的回答。












