用 LangChain 和 ChatGLM 搭一个本地知识库 | 极客日志

PythonSaaSAI

用 LangChain 和 ChatGLM 搭一个本地知识库

这套方案用 LangChain 组织检索、提示词和模型调用，用 ChatGLM 在本地完成中文生成，整体采用 RAG 架构，配合 Embedding 模型和 ChromaDB/Milvus 存放向量索引。文章给出了 Python 依赖安装、ChatGLM 与 HuggingFace Transformers 的加载方式、文档切分与向量化示例，以及 RetrievalQA 检索问答链的基本写法。最后补充了 Docker 部署、安全隔离、权限控制、数据脱敏和性能优化思路，适合需要把知识库留在内网的团队。

技术博主发布于 2026/6/300 浏览

用 LangChain 和 ChatGLM 搭一个本地知识库

企业里做知识库，最先绕不开的不是'能不能回答'，而是'数据能不能留在自己手里'。公有云接口省事，但一旦涉及内部文档、合同、流程规范，很多团队最后还是会回到本地部署这条路。LangChain 负责把检索、提示词和模型调用串起来，ChatGLM 负责中文生成，组合起来做一套私有化知识库，路子比较清楚。

方案结构

这里用的是典型的 RAG 架构，核心就四块：

大语言模型：ChatGLM 系列，支持本地部署，中文能力够用。
Embedding 模型：把文本切成向量，常见选择是 bge-m3 或 m3e-base。
向量数据库：存切分后的文档向量，ChromaDB 和 Milvus 都能用。
应用编排：LangChain 负责把加载、切分、检索、问答这些步骤接起来。

这套结构不新，但胜在可控。模型、向量库、切分策略都能单独替换，后面排问题也不会被一个黑盒卡死。

环境准备

基础要求

Python >= 3.9
GPU 显存建议 >= 8GB，量化后可以再往下压
操作系统：Linux / macOS / Windows

安装依赖

先建虚拟环境，再装需要的库：

python -m venv rag_env
source rag_env/bin/activate  # Linux/Mac
# 或
rag_env\Scripts\activate     # Windows

pip install langchain langchain-community transformers torch accelerate
pip install chromadb sentence-transformers streamlit

代码实现

加载本地模型

ChatGLM 和 HuggingFace Transformers 配合起来比较直接，先把本地模型拉起来，再用 HuggingFacePipeline 包一层给 LangChain 用。

from langchain.llms import HuggingFacePipeline
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
import torch

model_name = "THUDM/chatglm3-6b"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    trust_remote_code=True
).half()

pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=
)

llm = HuggingFacePipeline(pipeline=pipe)

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

from langchain.document_loaders import DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma

loader = DirectoryLoader('./data', glob="*.pdf")
docs = loader.load()

splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
splits = splitter.split_documents(docs)

embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-large-zh-v1.5")
vectorstore = Chroma.from_documents(documents=splits, embedding=embeddings)

from langchain.chains import RetrievalQA

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever(search_kwargs={"k": 3}),
    return_source_documents=True
)

response = qa_chain.run("请总结本文档中关于安全合规的内容")
print(response)

FROM python:3.9-slim
WORKDIR /app
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt
COPY . .
CMD ["streamlit", "run", "app.py"]

docker run -d --gpus all -p 8501:8501 -v ./data:/app/data my-rag-app:latest

用 LangChain 和 ChatGLM 搭一个本地知识库

用 LangChain 和 ChatGLM 搭一个本地知识库

方案结构

环境准备

基础要求

安装依赖

代码实现

加载本地模型

更多推荐文章

相关免费在线工具

文档加载和向量化

组装检索问答链

容器化部署

安全和性能

数据安全

性能优化

结语

更多推荐文章

相关免费在线工具

用 LangChain 和 ChatGLM 搭一个本地知识库

用 LangChain 和 ChatGLM 搭一个本地知识库

方案结构

环境准备

基础要求

安装依赖

代码实现

加载本地模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

文档加载和向量化

组装检索问答链

容器化部署

安全和性能

数据安全

性能优化

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具