利用 LangChain 构建高效本地知识库系统

基于 LangChain 框架搭建本地知识库系统的流程。首先阐述了 RAG（检索增强生成）技术如何解决大模型知识滞后和幻觉问题，随后详细说明了环境依赖安装、Embedding 模型配置及向量数据库 Chroma 的使用。通过 WebBaseLoader 加载文档，利用 RecursiveCharacterTextSplitter 进行分块，结合 Azure OpenAI 或百度千帆模型实现文本向量化与检索。最后展示了使用 LCEL 表达式构建问答链并启动服务的完整代码示例，实现了基于私有数据的智能问答功能。

机器人发布于 2025/2/6更新于 2026/7/2743 浏览

使用 LangChain 搭建本地知识库系统

什么是 RAG

RAG 是 retrieval-augmented-generation 的缩写，翻译为中文的意思是检索增强，以基于最新、最准确的数据建立 LLM 的语料知识库。

LLM 现存的痛点

我们知道 LLM 的知识库是通过现有的网络公开的数据作为数据源来训练的。现在公开的很多模型他们基于的训练数据会比我们现在网络上公开的数据早很多，那自然就会产生一种问题：网络上最新的数据和知识 LLM 是不知道的。还有一种情况就是很多企业对自己的数据的安全做得很好，也就是私有化数据（这些数据是有价值的，也是企业的立足之本）。这些数据网络上肯定是不存在，那自然 LLM 也是不知道的。

我们在提问 LLM 对于一些不知道的知识时，LLM 很多时候是不知道如何回答问题的，甚至会对我们的问题进行胡诌随机回答，也就是瞎说。

如何解决

那如何让 LLM 知道这些最新/私有的数据的知识呢？

那就是 RAG。通过将模型建立在外部知识来源的基础上来补充回答，从而提高 LLM 生成回答的质量。

在基于 LLM 实现的问答系统中使用 RAG 有三方面的好处：

确保 LLM 可以回答最新、最准确的内容。并且用户可以访问模型内容的来源，确保可以检查其声明的准确性并最终可信。
通过将 LLM 建立在一组外部的、可验证的事实数据之上，该模型将信息提取到其参数中的机会更少。这减少了 LLM 泄露敏感数据或'幻觉'不正确或误导性信息的机会。
RAG 还减少了用户根据新数据不断训练模型并随着数据的变化更新训练参数的需要。通过这种方式企业可以降低相关财务成本。

现在支撑所有基础模型的是一种称为 transformer 的 AI 架构。它将大量原始数据转换为其基本结构的压缩表示形式。从这种原始表示开始，基础模型可以适应各种任务，并对标记的、特定于领域的知识进行一些额外的微调。

但是，仅靠微调很少能为模型提供在不断变化的环境中回答高度具体问题所需的全部知识，并且微调的时间周期还比较长。所以当时的 Facebook 提出了 RAG，让 LLM 能够访问训练数据之外的信息。RAG 允许 LLM 建立在专门的知识体系之上，以更准确的方式回答问题。

简单介绍

LangChain 是一个用于开发由语言模型驱动的应用程序的框架。它使应用程序能够：

具有上下文感知能力：将语言模型与上下文源（提示说明、少量镜头示例、基于其响应的内容等）联系起来。
推理：依靠语言模型进行推理（关于如何根据提供的上下文回答，采取什么行动等）

安装 langchain 相关依赖包

pip install langchain
pip install langchain-community
pip install langchain-core
pip install langchain-experimental
pip install "langserve[all]"
pip install langchain-cli
pip install langsmith

实现知识库

OpenAI 相关配置

如果你不使用 OpenAI，那么你需要参考官网的关于 model I/O 的部分去实例化你对应的 LLM model。本文中的 LLM 使用的是 AZURE_OPENAI 的服务。

import os
os.environ["AZURE_OPENAI_ENDPOINT"] = ""
os.environ["AZURE_OPENAI_API_KEY"] = ""

Embedding Model 账户配置

根据自己的实际 LLM 情况去配置相关的参数。

import os
os.environ["AZURE_OPENAI_ENDPOINT"] = ""
os.environ[] = 
os.environ[] = 
os.environ[] =

使用 LangChain 搭建本地知识库系统

什么是 RAG

RAG 是 retrieval-augmented-generation 的缩写，翻译为中文的意思是检索增强，以基于最新、最准确的数据建立 LLM 的语料知识库。

LLM 现存的痛点

我们在提问 LLM 对于一些不知道的知识时，LLM 很多时候是不知道如何回答问题的，甚至会对我们的问题进行胡诌随机回答，也就是瞎说。

如何解决

那如何让 LLM 知道这些最新/私有的数据的知识呢？

那就是 RAG。通过将模型建立在外部知识来源的基础上来补充回答，从而提高 LLM 生成回答的质量。

在基于 LLM 实现的问答系统中使用 RAG 有三方面的好处：

确保 LLM 可以回答最新、最准确的内容。并且用户可以访问模型内容的来源，确保可以检查其声明的准确性并最终可信。
通过将 LLM 建立在一组外部的、可验证的事实数据之上，该模型将信息提取到其参数中的机会更少。这减少了 LLM 泄露敏感数据或'幻觉'不正确或误导性信息的机会。
RAG 还减少了用户根据新数据不断训练模型并随着数据的变化更新训练参数的需要。通过这种方式企业可以降低相关财务成本。

简单介绍

LangChain 是一个用于开发由语言模型驱动的应用程序的框架。它使应用程序能够：

具有上下文感知能力：将语言模型与上下文源（提示说明、少量镜头示例、基于其响应的内容等）联系起来。
推理：依靠语言模型进行推理（关于如何根据提供的上下文回答，采取什么行动等）

安装 langchain 相关依赖包

pip install langchain
pip install langchain-community
pip install langchain-core
pip install langchain-experimental
pip install "langserve[all]"
pip install langchain-cli
pip install langsmith

实现知识库

OpenAI 相关配置

如果你不使用 OpenAI，那么你需要参考官网的关于 model I/O 的部分去实例化你对应的 LLM model。本文中的 LLM 使用的是 AZURE_OPENAI 的服务。

import os
os.environ["AZURE_OPENAI_ENDPOINT"] = ""
os.environ["AZURE_OPENAI_API_KEY"] = ""

Embedding Model 账户配置

根据自己的实际 LLM 情况去配置相关的参数。

import os
os.environ["AZURE_OPENAI_ENDPOINT"] = ""
os.environ[] = 
os.environ[] = 
os.environ[] =

# 导入 langchain 相关的依赖包 # 导入向量数据库（向量存储、查询） from langchain_community.vectorstores import Chroma # 导入 langchain 输出函数 (格式化输出) from langchain_core.output_parsers import StrOutputParser # 导入 langchain Prompt 模板，prompt 管理 from langchain_core.prompts import ChatPromptTemplate from langchain_core.pydantic_v1 import BaseModel # 导入 langchain 的 LCEL 解释器包 from langchain_core.runnables import RunnableParallel, RunnablePassthrough # 导入 langchain 文本拆分器 from langchain.text_splitter import RecursiveCharacterTextSplitter # 导入 langchain 的文件加载器 (WebBaseLoader 的功能是拉取网页数据，解析为 langchain Document 结构) from langchain_community.document_loaders import WebBaseLoader # 加载网页 https://docs.dify.ai/v/zh-hans/getting-started/readme 的数据 raw_documents = WebBaseLoader("https://docs.dify.ai/v/zh-hans/getting-started/readme").load() # raw_documents = WebBaseLoader("https://docs.dify.ai/v/zh-hans/guides/knowledge-base").load() # 将网页数据拆分为 chunk 的大小 text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50) all_splits = text_splitter.split_documents(raw_documents) # 将文本编码为向量，并保存为向量 vectorstore = Chroma.from_documents( documents=all_splits, collection_name="RAG-chroma", embedding=embedQianfan(), ) retriever = vectorstore.as_retriever() # 构建 RAG prompt template = """Answer the question with chinese and based only on the following context: {context} Question: {question} """ prompt = ChatPromptTemplate.from_template(template) # 初始化 LLM # model = ChatOpenAI() model = openai_llm() # 使用 LCEL 表达式构建 RAG chain chain = ( RunnableParallel({"context": retriever, "question": RunnablePassthrough()}) | prompt | model | StrOutputParser() ) # Add typing for input class Question(BaseModel): __root__: str chain = chain.with_types(input_type=Question) print(chain.invoke("dify 是什么")) print(chain.invoke("dify 能干什么？请用列表形式回答")) print(chain.invoke("dify 可以导入哪些数据？")) print(chain.invoke("dify 如何导入 nation 数据？"))

利用 LangChain 构建高效本地知识库系统

使用 LangChain 搭建本地知识库系统

什么是 RAG

LLM 现存的痛点

如何解决

简单介绍

安装 langchain 相关依赖包

实现知识库

OpenAI 相关配置

Embedding Model 账户配置

利用 LangChain 构建高效本地知识库系统

使用 LangChain 搭建本地知识库系统

什么是 RAG

LLM 现存的痛点

如何解决

简单介绍

安装 langchain 相关依赖包

实现知识库

OpenAI 相关配置

Embedding Model 账户配置

更多推荐文章

相关免费在线工具

RAG 增强检索的流程图

代码执行流程

代码实现

定义 embedding model 的初始化

定义 OpenAI 实现

OpenAI 官方服务

整体代码实现详解

启动项目

提问示例

切换文档后继续提问，观察输出

注意点

1、文件拆分

总结

更多推荐文章

相关免费在线工具

利用 LangChain 构建高效本地知识库系统

使用 LangChain 搭建本地知识库系统

什么是 RAG

LLM 现存的痛点

如何解决

简单介绍

安装 langchain 相关依赖包

实现知识库

OpenAI 相关配置

Embedding Model 账户配置

利用 LangChain 构建高效本地知识库系统

使用 LangChain 搭建本地知识库系统

什么是 RAG

LLM 现存的痛点

如何解决

简单介绍

安装 langchain 相关依赖包

实现知识库

OpenAI 相关配置

Embedding Model 账户配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

RAG 增强检索的流程图

代码执行流程

代码实现

定义 embedding model 的初始化

定义 OpenAI 实现

OpenAI 官方服务

整体代码实现详解

启动项目

提问示例

切换文档后继续提问，观察输出

注意点

1、文件拆分

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具