多模态检索增强生成（RAG）技术深度解析与实现 | 极客日志

PythonAI算法

多模态检索增强生成（RAG）技术深度解析与实现

综述由AI生成多模态检索增强生成（Multimodal RAG）允许 AI 模型交互文本、图像、视频等多种信息。传统 RAG 原理，阐述了共享向量空间、单一基础模态及独立检索三种多模态构建方法，并通过 Google Gemini 和 CLIP 模型演示了音频、图像及文本的联合检索与生成流程，分析了实施中的挑战与最佳实践，为构建现代多模态系统提供技术参考。

孤勇者发布于 2025/2/7更新于 2026/6/123 浏览

多模态检索增强生成（RAG）技术深度解析与实现

多模态检索增强生成（Multimodal Retrieval Augmented Generation，简称 Multimodal RAG）是一种新兴的设计范式，允许 AI 模型与文本、图像、视频等多种信息存储接口进行交互。随着大语言模型（LLM）能力的扩展，单一文本模态已无法满足复杂场景需求，多模态 RAG 成为构建现代智能系统的关键技术。

本文将首先介绍什么是检索增强生成（RAG）及多模态概念，随后探讨如何将两者结合以构建多模态 RAG 系统。在理解基本概念后，我们将使用 Google Gemini 和类似 CLIP 的编码模型来构建一个实际的多模态 RAG 示例。

检索增强生成简介

在深入多模态之前，先回顾传统的检索增强生成（RAG）。RAG 的核心概念是找到与用户查询相关的信息，然后将这些信息注入到提示词（Prompt）中并传递给语言模型，从而利用外部知识库增强模型的生成能力。

RAG 基本原理

RAG 系统的基本原理是根据用户的查询检索相关信息，然后将这些信息与用户的查询结合（称为增强）后传递给语言模型。

检索增强生成示意图

RAG 系统的检索通常是通过'嵌入'（Embedding）实现的。为了嵌入某些内容，我们使用高级 AI 模型将信息转换为代表该信息的向量。这个过程是通过一组参考文档以及用户的查询来完成的。可以计算这些向量之间的距离，文档与用户查询之间距离最小的被认为是最相关的。

嵌入的概念图

*注：AI 模型会提取一些文本序列并创建一个代表该文本序列的向量。

一旦 RAG 系统检索到足够相关的信息，用户的查询和相关文档将用于构建一个增强提示，然后将其传递给语言模型进行生成。

"Answer the customers prompt based on the folowing context:
==== context: {document title} ====
{document content}
...
prompt: {prompt}"

这种通用系统通常预设整个知识库由可以传递给语言模型的文本组成，但许多知识来源不仅仅是文本。可能还有音频、视频、图像等。这就是多模态 RAG 的作用。

多模态概念

在数据科学中，'模态'（Modality）本质上是数据的一种类型。文本、图像、音频、视频、表格等都可以被视为不同的'模态'。长期以来，这些不同类型的数据被视为彼此分离，数据科学家需要为文本、视频等分别创建模型。近年来，这种概念逐渐消失，能够理解和处理多种模态的模型变得更加高效且易于访问。

联合嵌入（Joint Embeddings）

多模态模型的概念通常围绕'联合嵌入'展开。基本上，联合嵌入是一种建模策略，迫使模型同时学习不同类型的数据。这个领域的标志性论文之一是 CLIP（Contrastive Language–Image Pre-training），它创建了一个能够处理图像和文本任务的强大模型。

CLIP 风格模型示意图

*注：CLIP 风格的模型使用复杂的训练过程使多个模型组件协同工作，以理解图像和文本。

自 CLIP 以来，各种建模策略已被创建，以某种方式对齐图像和文本。到处都有可以处理多种类型的数据新模型问世。

多模态 RAG 架构方法

多模态 RAG 的概念是允许 RAG 系统以某种方式将多种形式的信息注入多模态模型中。因此，多模态 RAG 系统不仅可以根据用户提示检索文本片段，还可以检索文本、图像、视频和其他不同模态的数据。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

!pip install pydub transformers torch requests pillow

import os
import google.generativeai as genai
from google.colab import userdata

os.environ["GOOGLE_API_KEY"] = userdata.get('GeminiAPIKey')
genai.configure(api_key=os.environ["GOOGLE_API_KEY"])

import requests
from PIL import Image
from IPython.display import display
import os

# Loading image
url = 'https://github.com/DanielWarfield1/MLWritingAndResearch/blob/main/Assets/Multimodal/MMRAG/Lorenz_Ro28-200px.png?raw=true'
response = requests.get(url, stream=True)
image = Image.open(response.raw).convert('RGB')

# Save the image locally as JPG
save_path = 'image.jpg'
image.save(save_path, 'JPEG')
display(image)

from pydub import AudioSegment
import numpy as np
import io
import matplotlib.pyplot as plt
import wave
import requests

# Downloading audio file
url = "https://github.com/DanielWarfield1/MLWritingAndResearch/blob/main/Assets/Multimodal/MMRAG/audio.mp3?raw=true"
response = requests.get(url)
audio_data = io.BytesIO(response.content)

# Converting to wav and loading
audio_segment = AudioSegment.from_file(audio_data, format="mp3")

# Downsampling to 16000 Hz (this is necessary because a future model requires it to be at 16000Hz)
sampling_rate = 16000
audio_segment = audio_segment.set_frame_rate(sampling_rate)

# Exporting the downsampled audio to a wav file in memory
wav_data = io.BytesIO()
audio_segment.export(wav_data, format="wav")
wav_data.seek(0)  # Back to beginning of IO for reading
wav_file = wave.open(wav_data, 'rb')

# converting the audio data to a numpy array
frames = wav_file.readframes(-1)
audio_waveform = np.frombuffer(frames, dtype=np.int16).astype(np.float32)

# Rendering audio waveform
plt.plot(audio_waveform)
plt.title("Audio Waveform")
plt.xlabel("Sample Index")
plt.ylabel("Amplitude")
plt.show()

import requests

# URL of the text file
url = "https://github.com/DanielWarfield1/MLWritingAndResearch/blob/main/Assets/Multimodal/MMRAG/Wiki.txt?raw=true"
response = requests.get(url)
text_data = response.text

# truncating length for compatability with an encoder that accepts a small context
# a different encoder could be used which allows for larger context lengths
text_data = text_data[:300]

print(text_data)

import torch
from transformers import Speech2TextProcessor, Speech2TextForConditionalGeneration

#the model that generates text based on speech audio
model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-medium-librispeech-asr")
#a processor that gets everything set up
processor = Speech2TextProcessor.from_pretrained("facebook/s2t-medium-librispeech-asr")

#passing through model
inputs = processor(audio_waveform, sampling_rate=sampling_rate, return_tensors="pt")
generated_ids = model.generate(inputs["input_features"], attention_mask=inputs["attention_mask"])

#turning model output into text
audio_transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

audio_transcription

query = 'who is my favorite harpist?'

from transformers import CLIPProcessor, CLIPModel

# Load the model and processor
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

# Encode the image
inputs = processor(images=image, return_tensors="pt")
image_embeddings = model.get_image_features(**inputs)

# Encode the text
inputs = processor(text=[query, audio_transcription, text_data], return_tensors="pt", padding=True)
text_embeddings = model.get_text_features(**inputs)

import torch
from torch.nn.functional import cosine_similarity

# unpacking individual embeddings
image_embedding = image_embeddings[0]
query_embedding = text_embeddings[0]
audio_embedding = text_embeddings[1]
text_embedding = text_embeddings[2]

# Calculate cosine similarity
cos_sim_query_image = cosine_similarity(query_embedding.unsqueeze(0), image_embedding.unsqueeze(0)).item()
cos_sim_query_audio = cosine_similarity(query_embedding.unsqueeze(0), audio_embedding.unsqueeze(0)).item()
cos_sim_query_text = cosine_similarity(query_embedding.unsqueeze(0), text_embedding.unsqueeze(0)).item()

# Print the results
print(f"Cosine Similarity between query and image embedding: {cos_sim_query_image:.4f}")
print(f"Cosine Similarity between query and audio embedding: {cos_sim_query_audio:.4f}")
print(f"Cosine Similarity between query and text embedding: {cos_sim_query_text:.4f}")

# putting all the similarities in a list
similarities = [cos_sim_query_image, cos_sim_query_audio, cos_sim_query_text]

result = None
if max(similarities) == cos_sim_query_image:
    #image most similar, augmenting with image
    model = genai.GenerativeModel('gemini-1.5-pro')
    result = model.generate_content([query, Image.open('image.jpeg')])
elif max(similarities) == cos_sim_query_audio:
    #audio most similar, augmenting with audio. Here I'm using the transcript
    #rather than the audio itself
    model = genai.GenerativeModel('gemini-1.5-pro')
    result = model.generate_content([query, 'audio transcript (may have inaccuracies): '+audio_transcription])
elif max(similarities) == cos_sim_query_text:
    #text most similar, augmenting with text
    model = genai.GenerativeModel('gemini-1.5-pro')
    result = model.generate_content([query, text_data])

print(result.text)

多模态检索增强生成（RAG）技术深度解析与实现

多模态检索增强生成（RAG）技术深度解析与实现

检索增强生成简介

RAG 基本原理

多模态概念

联合嵌入（Joint Embeddings）

多模态 RAG 架构方法

更多推荐文章

相关免费在线工具

方法一：共享向量空间

方法二：单一基础模态

方法三：独立检索

在 Google Vertex 中实现多模态 RAG

环境设置

数据下载与预处理

将音频转换为文本

嵌入与相似度计算

检索增强生成（RAG）流程

挑战与最佳实践

结论

更多推荐文章

相关免费在线工具

多模态检索增强生成（RAG）技术深度解析与实现

多模态检索增强生成（RAG）技术深度解析与实现

检索增强生成简介

RAG 基本原理

多模态概念

联合嵌入（Joint Embeddings）

多模态 RAG 架构方法

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

方法一：共享向量空间

方法二：单一基础模态

方法三：独立检索

在 Google Vertex 中实现多模态 RAG

环境设置

数据下载与预处理

将音频转换为文本

嵌入与相似度计算

检索增强生成（RAG）流程

挑战与最佳实践

结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具