LangChain 向量存储与检索器使用指南 | 极客日志

PythonAI算法

LangChain 向量存储与检索器使用指南

综述由AI生成LangChain 中向量存储和检索器的核心概念与使用方法。涵盖了文档对象的结构、基于 Chroma 的向量存储初始化与查询方式，以及通过 Retriever 集成到 LangChain 表达式语言（LCEL）的流程。最后展示了如何将检索结果与 LLM 结合构建简单的 RAG 应用。

GopherDev发布于 2025/2/7更新于 2026/5/3018 浏览

本文将介绍 LangChain 的向量存储和抽象检索器。支持从向量数据库和其他来源检索数据，并与大模型的工作流集成。这对于需要检索数据以进行推理的应用程序非常重要，例如检索增强生成（RAG）的情况。

概念

本指南专注于文本数据的检索流程，涵盖以下核心组件：

Documents：包含文本内容及元数据的文档对象。
Vector Stores：用于存储和检索向量数据的数据库。
Retrievers：标准化的检索接口，便于集成到工作流中。

环境准备

依赖安装

运行本教程需要安装以下 Python 包：

pip install langchain langchain-chroma langchain-openai

环境变量配置

为了启用 LangSmith 追踪，需设置环境变量。在终端中执行：

export LANGCHAIN_TRACING_V2="true"
export LANGCHAIN_API_KEY="your_api_key_here"

若在 Jupyter Notebook 中，可使用以下方式动态设置：

import getpass
import os
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = getpass.getpass()

文档对象 (Documents)

LangChain 中的 Document 对象是处理文本的基本单元，它由两部分组成：

page_content：字符串格式的实际文本内容。
metadata：字典形式的元数据，可存储来源、作者、日期等信息。

单个文档通常代表较大文档的一个切片。以下是创建文档对象的示例：

from langchain_core.documents import Document

documents = [
    Document(
        page_content="Dogs are great companions, known for their loyalty and friendliness.",
        metadata={"source": "mammal-pets-doc", "type": "pet"},
    ),
    Document(
        page_content="Cats are independent pets that often enjoy their own space.",
        metadata={"source": "mammal-pets-doc", "type": "pet"},
    ),
    Document(
        page_content=,
        metadata={: , : },
    ),
    Document(
        page_content=,
        metadata={: , : },
    ),
    Document(
        page_content=,
        metadata={: , : },
    ),
]

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

vectorstore = Chroma.from_documents(
    documents,
    embedding=OpenAIEmbeddings(),
)

# 字符串查询
results = vectorstore.similarity_search("cat")

# 异步查询
async_results = await vectorstore.asimilarity_search("cat")

# 带分数查询
results_with_score = vectorstore.similarity_search_with_score("cat")

# 向量查询
embedding = OpenAIEmbeddings().embed_query("cat")
vector_results = vectorstore.similarity_search_by_vector(embedding)

from typing import List
from langchain_core.runnables import RunnableLambda

retriever = RunnableLambda(vectorstore.similarity_search).bind(k=1)
result = retriever.batch(["cat", "shark"])

retriever = vectorstore.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 1},
)

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough

# 初始化 LLM
llm = ChatOpenAI(model="gpt-3.5-turbo-0125")

# 定义提示模板
prompt = ChatPromptTemplate.from_messages([
    ("human", "Answer this question using the provided context only.\n{question}\nContext:\n{context}")
])

# 构建链
rag_chain = {"context": retriever, "question": RunnablePassthrough()} | prompt | llm

# 执行查询
response = rag_chain.invoke("tell me about cats")
print(response.content)

LangChain 向量存储与检索器使用指南

概念

环境准备

依赖安装

环境变量配置

文档对象 (Documents)

更多推荐文章

相关免费在线工具

向量存储 (Vector Stores)

检索器 (Retrievers)

检索增强生成 (RAG) 集成

总结

更多推荐文章

相关免费在线工具

LangChain 向量存储与检索器使用指南

概念

环境准备

依赖安装

环境变量配置

文档对象 (Documents)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

向量存储 (Vector Stores)

检索器 (Retrievers)

检索增强生成 (RAG) 集成

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具