AI 大模型嵌入模型性能优化：缓存机制实战 | 极客日志

PythonAI算法

AI 大模型嵌入模型性能优化：缓存机制实战

探讨 RAG 系统中嵌入模型的性能优化方案。针对生成成本高、重复计算浪费、API 调用限制及响应速度瓶颈等核心痛点，提出采用缓存机制。利用 LangChain 的 CacheBackedEmbeddings 组件，结合本地文件或 Redis 分布式存储，实现嵌入向量的一次计算多次复用。实战测试表明，缓存方案可将查询响应时间从 800ms 降至 10ms，API 调用次数减少 99%，有效降低运维成本并提升系统并发能力。

指针猎手发布于 2026/4/6更新于 2026/7/2066 浏览

嵌入模型性能优化：缓存机制实战

在 RAG 系统中，嵌入模型的作用是将文本（文档/查询）转换为高维向量，为后续的相似度检索提供基础。但在实际应用中，嵌入计算往往会成为系统的性能瓶颈。

一、需求背景：为什么要优化嵌入模型？

在 RAG 系统中，嵌入模型的作用是将文本（文档/查询）转换为高维向量，为后续的相似度检索提供基础。但在实际应用中，嵌入计算往往会成为系统的性能瓶颈，这也是落地 RAG 时会遇到的问题之一。

先看一组真实场景数据：某智能客服知识库包含 10 万条 QA 对，使用 OpenAI Embeddings 计算嵌入时，单次全量计算需要消耗约 200 元 API 费用，单条查询响应时间约 800ms，且每天因重复计算浪费 30% 的资源。

二、嵌入计算的四大核心痛点

生成成本高：无论是调用商业 API（如 OpenAI、DashScope）还是部署本地大模型，嵌入计算都需要消耗大量计算资源（CPU/GPU），批量处理时成本显著上升；
重复计算浪费：知识库中的文本（如产品说明、法律条款）往往长期不变，多次调用模型生成相同嵌入会造成严重的资源浪费；
API 调用限制：商业嵌入模型 API 普遍存在调用频率、并发数限制，高流量场景下容易触发限流，影响系统可用性；
响应速度瓶颈：实时场景（如智能客服、实时检索）对响应延迟要求极高（通常需≤100ms），直接调用模型计算嵌入无法满足需求。

三、解决方案：缓存机制的核心价值

图片描述

针对上述痛点，缓存（Cache） 是最直接有效的优化方案。其核心逻辑是：将首次计算的嵌入结果存储起来，后续遇到相同文本时直接读取缓存，无需重复调用模型。具体优势如下：

降低计算成本：相同文本只需计算一次，重复率越高，成本节省越明显（如知识库场景可降低 30%-80% 的 API 费用）；
提升响应速度：缓存读取速度比模型计算快 10-100 倍（本地缓存≈10ms，Redis 缓存≈2ms，模型计算≈100-1000ms）；
突破 API 限制：本地缓存/分布式缓存不受远程 API 配额限制，可支撑更高并发；
支持离线场景：网络不可用时，仍能读取历史嵌入结果，保证系统基础功能可用。

四、LangChain 缓存方案：CacheBackedEmbeddings 详解

LangChain 作为大模型开发的框架，提供了专门的缓存装饰器——CacheBackedEmbeddings，可无缝集成各类嵌入模型和存储介质，无需手动实现缓存逻辑。

4.1 技术架构图

图片描述

注：CacheBackedEmbeddings采用文本哈希生成唯一键（默认使用 SHA-256），确保相同文本对应唯一缓存键，避免冲突。

4.2 核心语法与参数说明

基础导入与初始化

# 导入核心组件
from langchain.embeddings  CacheBackedEmbeddings, OpenAIEmbeddings
 langchain.storage  LocalFileStore


embedding_model = OpenAIEmbeddings(openai_api_key=)


storage = LocalFileStore() 


cached_embedder = CacheBackedEmbeddings(
    underlying_embeddings=embedding_model, 
    document_embedding_store=storage,      
    namespace=                  
)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

参数名	类型	作用说明
underlying_embeddings	Embeddings	原始嵌入模型实例（如 OpenAIEmbeddings、DashScopeEmbeddings、本地模型等）
document_embedding_store	BaseStore	缓存存储实现类（LangChain 提供多种开箱即用的存储方案）
namespace	str	缓存命名空间，用于隔离不同项目或模型版本（如'openai-v3'和'openai-v2'分开存储）

# langchain.storage 支持的存储类型
__all__ = [
    "InMemoryStore",        # 内存存储（最快，重启丢失）
    "LocalFileStore",       # 本地文件存储（零配置，易调试）
    "RedisStore",           # Redis 存储（分布式，高并发）
    "UpstashRedisStore",    # Upstash Redis（Serverless，无需运维）
    "EncoderBackedStore",   # 自定义编码存储（支持复杂数据类型）
]

from langchain.embeddings import OpenAIEmbeddings

# 初始化模型
embedder = OpenAIEmbeddings(openai_api_key="sk-xxx")

# 每次请求都重新计算嵌入（即使文本重复）
def get_embedding(text):
    return embedder.embed_documents([text])

# 第一次调用：计算嵌入（800ms 左右）
vector1 = get_embedding("如何重置密码？")
# 第二次调用：重复计算（同样 800ms 左右，浪费资源）
vector2 = get_embedding("如何重置密码？")

from langchain.embeddings import CacheBackedEmbeddings, OpenAIEmbeddings
from langchain.storage import LocalFileStore

# 1. 初始化组件
embedder = OpenAIEmbeddings(openai_api_key="sk-xxx")
storage = LocalFileStore("./kb_embedding_cache/") # 知识库缓存目录
cached_embedder = CacheBackedEmbeddings(
    underlying_embeddings=embedder,
    document_embedding_store=storage,
    namespace="customer-service-kb" # 命名空间：隔离客服知识库缓存
)

# 2. 缓存优化的嵌入获取函数
def get_cached_embedding(text):
    return cached_embedder.embed_documents([text])

# 第一次调用：未命中缓存，计算并存储（800ms 左右）
vector1 = get_cached_embedding("如何重置密码？")
print(f"首次调用嵌入维度：{len(vector1[0])}") # 输出：1536（OpenAI Embeddings 维度）

# 第二次调用：命中缓存，直接读取（10ms 左右）
vector2 = get_cached_embedding("如何重置密码？")
print(f"结果一致性：{vector1 == vector2}") # 输出：True（向量完全一致）

# 安装依赖：pip install redis langchain
from redis import Redis
from langchain.embeddings import CacheBackedEmbeddings, OpenAIEmbeddings
from langchain.storage import RedisStore

# 1. 连接 Redis（本地或远程集群）
redis_client = Redis(
    host="localhost",
    port=6379,
    password="xxx", # 密码（生产环境必填）
    db=0            # 数据库编号
)

# 2. 初始化 Redis 缓存（设置 24 小时过期，避免缓存膨胀）
redis_store = RedisStore(redis_client, ttl=86400) # ttl：缓存过期时间（秒）

# 3. 初始化带 Redis 缓存的嵌入模型
embedder = OpenAIEmbeddings(openai_api_key="sk-xxx")
cached_embedder = CacheBackedEmbeddings(
    underlying_embeddings=embedder,
    document_embedding_store=redis_store,
    namespace="prod-rag-kb" # 生产环境命名空间
)

# 调用方式与本地缓存一致，支持多节点共享缓存
vector = cached_embedder.embed_documents(["如何查询订单物流？"])

接口名	作用场景	缓存策略	设计考量
embed_documents	批量处理文档（如知识库构建、预计算）	默认开启缓存	文档重复率高，缓存收益大；批量处理可分摊缓存读写开销
embed_query	处理用户实时查询（如'如何重置密码？'）	默认不缓存	用户查询多样性高，缓存命中率低，反而增加存储开销和延迟

from langchain.embeddings import CacheBackedEmbeddings, DashScopeEmbeddings
from langchain.storage import LocalFileStore
import time

# 1. 初始化组件
embedding_model = DashScopeEmbeddings(
    model="text-embedding-v2", # 阿里云第二代嵌入模型
    dashscope_api_key="sk-xxx", # 替换为你的 API 密钥
    max_retries=3
)
storage = LocalFileStore("./dashscope_cache/")
cached_embeddings = CacheBackedEmbeddings.from_bytes_store(
    underlying_embeddings=embedding_model,
    document_embedding_store=storage,
    namespace="dashscope-v2"
)

# 2. 测试文本（故意重复，模拟知识库重复内容）
texts = ["AI 大模型开发实战", "AI 大模型开发实战"]

# 3. 首次调用（未命中缓存）
start_time = time.time()
emb1 = cached_embeddings.embed_documents(texts)
first_cost = time.time() - start_time
print(f"首次调用：嵌入维度={len(emb1[0])}，耗时={first_cost:.2f}s")

# 4. 二次调用（命中缓存）
start_time = time.time()
emb2 = cached_embeddings.embed_documents(texts)
second_cost = time.time() - start_time
print(f"二次调用：结果一致={emb1 == emb2}，耗时={second_cost:.2f}s")

首次调用：嵌入维度=768，耗时=0.78s
二次调用：结果一致=True，耗时=0.01s

存储类型	优点	缺点	适用场景
LocalFileStore	零配置、易调试、无需额外依赖	不支持分布式、并发性能差	本地开发、单节点测试
RedisStore	高并发、分布式共享、支持 TTL	需要部署 Redis、运维成本高	生产环境、集群部署
InMemoryStore	速度最快（内存读写）	重启丢失、不支持分布式	临时测试、短期缓存
UpstashRedisStore	Serverless、无需运维	云服务收费、依赖网络	中小规模生产环境、快速部署

AI 大模型嵌入模型性能优化：缓存机制实战

嵌入模型性能优化：缓存机制实战

一、需求背景：为什么要优化嵌入模型？

二、嵌入计算的四大核心痛点

三、解决方案：缓存机制的核心价值

四、LangChain 缓存方案：CacheBackedEmbeddings 详解

4.1 技术架构图

4.2 核心语法与参数说明

基础导入与初始化

更多推荐文章

相关免费在线工具

关键参数解析

4.3 支持的存储类型

五、应用案例：智能客服知识库加速

5.1 无缓存方案（传统方式）

5.2 有缓存方案（优化后）

5.3 高级配置：分布式场景（Redis 缓存）

六、实战对比：缓存前后性能差异

6.1 关键 API 区别

6.2 编码实战：计时对比

6.3 输出结果（实际环境测试）

七、最佳实践建议

7.1 适用场景

7.2 存储选择策略

7.3 进阶优化技巧

八、总结

更多推荐文章

相关免费在线工具

AI 大模型嵌入模型性能优化：缓存机制实战

嵌入模型性能优化：缓存机制实战

一、需求背景：为什么要优化嵌入模型？

二、嵌入计算的四大核心痛点

三、解决方案：缓存机制的核心价值

四、LangChain 缓存方案：CacheBackedEmbeddings 详解

4.1 技术架构图

4.2 核心语法与参数说明

基础导入与初始化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

关键参数解析

4.3 支持的存储类型

五、应用案例：智能客服知识库加速

5.1 无缓存方案（传统方式）

5.2 有缓存方案（优化后）

5.3 高级配置：分布式场景（Redis 缓存）

六、实战对比：缓存前后性能差异

6.1 关键 API 区别

6.2 编码实战：计时对比

6.3 输出结果（实际环境测试）

七、最佳实践建议

7.1 适用场景

7.2 存储选择策略

7.3 进阶优化技巧

八、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具