RAG 进阶：多模态图片检索技术实践 | 极客日志

PythonAI算法

RAG 进阶：多模态图片检索技术实践

综述由AI生成基于 LangChain 和 LlamaIndex 框架实现多模态 RAG 的技术方案。通过 unstructured 库提取 PDF 中的图片，利用 GPT-4V 生成图片摘要，并结合 MultiVectorRetriever 将原始图片与摘要向量关联。最终实现了对包含图表的金融报告进行图文混合检索，解决了传统文本 RAG 无法理解图像内容的痛点。文章涵盖了环境配置、图片提取、摘要生成、向量存储及查询验证的全过程，并分析了潜在挑战与优化方向。

剑仙发布于 2025/2/6更新于 2026/6/525 浏览

RAG 进阶：多模态图片检索技术实践

在 LlamaIndex 和 LangChain 框架的学习过程中，我们通常处理的是纯文本数据。然而，现实世界中的文档往往包含丰富的非结构化信息，如图片、图表、表格等。本文旨在探讨如何将单一文本模态的 RAG（检索增强生成）升级为多模态 RAG，使系统具备读图、搜图的能力。

前沿背景

传统的 RAG 系统主要处理 PDF 中的文本和表格数据。虽然 unstructured 库和 MultiVectorRetriever 已经能很好地处理半结构化数据，但对于图片、声音、视频等非结构化数据的理解能力仍然不足。大模型技术的发展，特别是多模态模型的出现，为这一领域带来了新的解决方案。

多模态模型（Multimodal Model）能够同时处理多种类型的数据输入。例如，GPT-3.5-turbo 仅支持文生文，属于单一模态模型；而 OpenAI 发布的 GPT-4V（Vision）则是一款典型的多模态模型，它不仅能接受文本指令，还能直接解析图像内容并返回文字描述。这种能力的升级，使得 RAG 系统可以直接利用视觉信息进行检索和推理。

环境准备与数据源

为了演示多模态 RAG 的效果，我们选取了一份来自摩根大通（JPMorgan）的每周市场回顾报告作为测试数据。该 PDF 文件包含文本、图表（图片）、表格等多种模态的混合数据，非常适合用于验证系统的图文处理能力。

依赖安装

首先，确保安装了必要的 Python 库。除了常规的 LangChain 和 LlamaIndex 组件外，还需要 unstructured 库来处理文档解析，以及 Pillow 等图像处理库。

pip install langchain langchain-community unstructured[all-docs] openai pillow

获取数据

下载目标 PDF 文件到本地目录：

import os
os.makedirs("data", exist_ok=True)
!wget -o data/weekly_market_recap.pdf https://am.jpmorgan.com/content/dam/jpm-am-aem/americas/us/en/insights/market-insights/wmr/weekly_market_recap.pdf

API Key 配置

使用 GPT-4V 需要有效的 OpenAI API Key，且账号需具备访问 Vision 模型的权限。

import os
os.environ["OPENAI_API_KEY"] = "Your_OpenAI_API_Key"

文档解析与图片提取

我们继续使用 unstructured 库提供的 partition_pdf 函数来抽取 PDF 中的不同元素。与处理纯文本不同，多模态场景下必须启用图片提取功能。

配置参数详解

from typing import Any
from pydantic import BaseModel
from unstructured.partition.pdf import partition_pdf

# 创建图片输出目录
images_path = "./images"
os.makedirs(images_path, exist_ok=)

raw_pdf_elements = partition_pdf(
    filename=,
    extract_images_in_pdf=,  
    infer_table_structure=,  
    chunking_strategy=, 
    image_output_dir_path=images_path  
)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

ls -alt images/

import base64
from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage

class ImageSummarizer:
    def __init__(self, image_path: str) -> None:
        self.image_path = image_path
        # 提示词工程：明确角色和任务，优化摘要以利于检索
        self.prompt = """
            You are an assistant tasked with summarizing images for retrieval.
            These summaries will be embedded and used to retrieve the raw image.
            Give a concise summary of the image that is well optimized for retrieval.
            Focus on key data points, trends, and labels visible in the chart.
        """

    def base64_encode_image(self) -> str:
        with open(self.image_path, "rb") as image_file:
            return base64.b64encode(image_file.read()).decode("utf-8")

    def summarize(self, prompt=None):
        if prompt is None:
            prompt = self.prompt
        
        base64_image_data = self.base64_encode_image()
        chat = ChatOpenAI(model="gpt-4-vision-preview", max_tokens=1000)
        
        response = chat.invoke([
            HumanMessage(
                content=[
                    {
                        "type": "text",
                        "text": prompt
                    },
                    {
                        "type": "image_url",
                        "image_url": {"url": f"data:image/jpeg;base64,{base64_image_data}"}
                    }
                ]
            )
        ])
        
        return base64_image_data, response.content

import os

image_data_list = []
image_summary_list = []

for img_file in sorted(os.listdir(images_path)):
    if img_file.endswith((".jpg", ".png")):
        summarizer = ImageSummarizer(os.path.join(images_path, img_file))
        data, summary = summarizer.summarize()
        image_data_list.append(data)
        image_summary_list.append(summary)

print(f"Processed {len(image_summary_list)} images.")

from uuid import uuid4
from langchain.docstore.document import Document
from langchain.vectorstores import FAISS  # 或其他向量库

# 假设 retriever 已初始化
id_key = "doc_id"
doc_ids = [str(uuid4()) for _ in image_data_list]

# 创建摘要文档
summary_images = [
    Document(page_content=s, metadata={id_key: doc_ids[i]})
    for i, s in enumerate(image_summary_list)
]

# 添加摘要到向量库
retriever.vectorstore.add_documents(summary_images)

# 将原始图片数据存入文档存储
retriever.docstore.mset(list(zip(doc_ids, image_data_list)))

query = "Which year had the highest holiday sales growth?"
response = chain.invoke(query)
print(response)

RAG 进阶：多模态图片检索技术实践

RAG 进阶：多模态图片检索技术实践

前沿背景

环境准备与数据源

依赖安装

获取数据

API Key 配置

文档解析与图片提取

配置参数详解

更多推荐文章

相关免费在线工具

验证提取结果

图片摘要生成

ImageSummarizer 类设计

批量处理流程

构建多向量检索器 (MultiVectorRetriever)

关联逻辑

原理分析

查询与验证

测试用例

预期结果

总结与展望

潜在挑战

更多推荐文章

相关免费在线工具

RAG 进阶：多模态图片检索技术实践

RAG 进阶：多模态图片检索技术实践

前沿背景

环境准备与数据源

依赖安装

获取数据

API Key 配置

文档解析与图片提取

配置参数详解

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

验证提取结果

图片摘要生成

ImageSummarizer 类设计

批量处理流程

构建多向量检索器 (MultiVectorRetriever)

关联逻辑

原理分析

查询与验证

测试用例

预期结果

总结与展望

潜在挑战

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具