使用 LangChain 结合 LLM 实现私有化文档搜索 | 极客日志

PythonAI算法

使用 LangChain 结合 LLM 实现私有化文档搜索

介绍如何利用 LangChain 框架结合大语言模型（LLM）构建私有化文档搜索系统。通过检索增强生成（RAG）技术解决 LLM 幻觉问题及知识更新滞后性。流程涵盖文档加载、文本分割、向量化嵌入、向量数据库存储、相似度检索及最终回答生成。示例代码展示了使用 PyPDFLoader 读取 PDF，RecursiveCharacterTextSplitter 进行分块，FAISS 作为向量库，以及通过 PromptTemplate 调用 LLM 生成答案的完整实现。该方法适用于企业内部知识库搭建及私有数据问答场景，并提供了检索策略优化、性能调优及安全建议。

MqEngine发布于 2025/2/6更新于 2026/7/2140 浏览

基于 LangChain 与 LLM 的私有化文档搜索方案

大语言模型（LLM）的底模通常基于公开且过期的数据训练，对于新产生的知识或企业私有数据，LLM 往往无法准确作答，容易产生'幻觉'。针对这一问题，检索增强生成（RAG, Retrieval-Augmented Generation）是主流的解决方案。通过 RAG，我们可以将私有知识库作为上下文提供给 LLM，从而在不重新训练模型的情况下提升回答的准确性和时效性。

本文将详细介绍如何使用 LangChain 框架结合 LLM 快速构建一个私有化文档搜索工具。LangChain 是目前 LLM 应用开发的首选框架之一，提供了丰富的组件来简化文档处理、向量存储和检索流程。

1. RAG 检索核心流程

使用 LangChain 实现私有化文档搜索主要包含以下六个步骤：

文档加载：读取本地文件（如 PDF、Word、TXT）。
文档分割：将长文本切分为适合嵌入的小块（Chunks）。
文档嵌入：将文本块转换为高维向量表示。
向量化存储：将向量存入向量数据库（如 FAISS、Chroma）。
文档检索：根据用户问题检索最相关的文档块。
生成回答：将检索结果作为上下文输入 LLM 生成最终答案。

该流程确保了系统能够基于特定领域知识进行问答，同时避免了全量数据的传输成本。

2. 代码实践细节

2.1 环境准备

首先确保已安装必要的依赖库。以 Python 环境为例：

pip install langchain langchain-community langchain-openai faiss-cpu

2.2 文档加载

我们需要加载私有文档数据。支持多种格式，本文以 PDF 为例。使用 PyPDFLoader 可以方便地解析 PDF 内容。

from langchain_community.document_loaders import PyPDFLoader

# 指定本地 PDF 文件路径
loader = PyPDFLoader("./GV2.pdf")
docs = loader.load()
print(f"加载了 {len(docs)} 个文档片段")

2.3 文档分割

原始文档通常较长，直接嵌入会导致信息丢失或超出 Token 限制。因此需要按句子或固定长度进行分割。RecursiveCharacterTextSplitter 是 LangChain 推荐的分割器，它支持递归分割策略，能更好地保留语义完整性。

关键参数说明：

chunk_size: 每个分块的最大字符数。
chunk_overlap: 分块之间的重叠字符数，有助于保持上下文连贯。
separators: 优先使用的分割符列表。

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,  # 建议根据实际模型上下文窗口调整
    chunk_overlap=,
    separators=[, , , , , , , ]
)
texts = text_splitter.split_documents(docs)
()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from langchain_openai import OpenAIEmbeddings

embeddings_model = OpenAIEmbeddings(
    openai_api_key="sk-xxxxxxxxxxx",
    openai_api_base="https://api.302.ai/v1",  # 替换为实际的 API 地址
)

# 提取纯文本内容用于测试
txts = [txt.page_content for txt in texts]
embeddings = embeddings_model.embed_documents(txts[:5])  # 仅演示前 5 个
print(f"向量维度：{len(embeddings[0])}")

from langchain_community.vectorstores import FAISS
import os

# 创建向量数据库实例
db = FAISS.from_documents(texts, embeddings_model)

# 保存到本地磁盘，以便后续复用
save_path = "faiss_db"
if not os.path.exists(save_path):
    os.makedirs(save_path)
FAISS.save_local(db, save_path)
print(f"向量库已保存至 {save_path}")

from langchain.retrievers.multi_query import MultiQueryRetriever

# 初始化检索器
retriever = db.as_retriever(search_type="similarity", search_kwargs={"k": 3})

question = "张学立是谁？"
context_docs = retriever.get_relevant_documents(query=question)

# 合并检索到的内容
_context = ""
for i, doc in enumerate(context_docs):
    _context += f"来源{i+1}: {doc.page_content}\n"

print(f"检索到 {len(context_docs)} 条相关内容")

from langchain.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI

# 初始化 LLM
model = ChatOpenAI(
    model_name="gpt-3.5-turbo",
    openai_api_key="sk-xxxxxxx",
    openai_api_base="https://api.302.ai/v1",
    temperature=0.0  # 降低随机性，提高准确性
)

# 定义 Prompt 模板
template = [
    (
        "system",
        "你是一个专业的文档助手。请严格根据下方<context>标签内的上下文内容回答问题。如果上下文中没有相关信息，请直接告知无法回答，不要编造。\n<context>{context}</context>"
    ),
    ("human", "{question}")
]
prompt = ChatPromptTemplate.from_messages(template)

# 执行链式调用
messages = prompt.format_messages(context=_context, question=question)
response = model.invoke(messages)
output_parser = StrOutputParser()
final_answer = output_parser.invoke(response)

print(f"回答：{final_answer}")

from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# 1. 配置
API_KEY = "sk-xxxxxxx"
API_BASE = "https://api.302.ai/v1"
MODEL_NAME = "gpt-3.5-turbo"
DOC_PATH = "./GV2.pdf"
DB_PATH = "./faiss_db"

# 2. 初始化模型
embeddings = OpenAIEmbeddings(openai_api_key=API_KEY, openai_api_base=API_BASE)
llm = ChatOpenAI(model_name=MODEL_NAME, openai_api_key=API_KEY, openai_api_base=API_BASE)

# 3. 加载与分割
loader = PyPDFLoader(DOC_PATH)
docs = loader.load()
splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
texts = splitter.split_documents(docs)

# 4. 构建向量库
try:
    db = FAISS.load_local(DB_PATH, embeddings, allow_dangerous_deserialization=True)
except:
    db = FAISS.from_documents(texts, embeddings)
    db.save_local(DB_PATH)

# 5. 检索与生成
retriever = db.as_retriever(search_kwargs={"k": 3})
query = "张学立是谁？"
context_docs = retriever.get_relevant_documents(query=query)
_context = "\n".join([d.page_content for d in context_docs])

prompt = ChatPromptTemplate.from_messages([
    ("system", "根据上下文回答：\n<context>{context}</context>"),
    ("human", "{question}")
])

chain = prompt | llm | StrOutputParser()
result = chain.invoke({"context": _context, "question": query})
print(result)

使用 LangChain 结合 LLM 实现私有化文档搜索

基于 LangChain 与 LLM 的私有化文档搜索方案

1. RAG 检索核心流程

2. 代码实践细节

2.1 环境准备

2.2 文档加载

2.3 文档分割

更多推荐文章

相关免费在线工具

2.4 文档嵌入 (Embeddings)

2.5 文档向量化存储

2.6 文档检索

2.7 调用 LLM 生成回答

2.8 完整代码整合

3. 优化与扩展建议

3.1 检索策略优化

3.2 性能调优

3.3 安全与隐私

4. 总结

更多推荐文章

相关免费在线工具

使用 LangChain 结合 LLM 实现私有化文档搜索

基于 LangChain 与 LLM 的私有化文档搜索方案

1. RAG 检索核心流程

2. 代码实践细节

2.1 环境准备

2.2 文档加载

2.3 文档分割

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.4 文档嵌入 (Embeddings)

2.5 文档向量化存储

2.6 文档检索

2.7 调用 LLM 生成回答

2.8 完整代码整合

3. 优化与扩展建议

3.1 检索策略优化

3.2 性能调优

3.3 安全与隐私

4. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具