Windows 11 部署 Langchain-Chatchat 本地知识库指南
Windows 11 环境下部署 Langchain-Chatchat 本地知识库的完整流程,涵盖环境配置、依赖安装、模型下载与量化优化、GPU 加速设置及常见问题排查。通过检索增强生成(RAG)技术实现离线大模型应用,支持 Web UI 与 API 模式,解决显存不足等部署难题。

Windows 11 环境下部署 Langchain-Chatchat 本地知识库的完整流程,涵盖环境配置、依赖安装、模型下载与量化优化、GPU 加速设置及常见问题排查。通过检索增强生成(RAG)技术实现离线大模型应用,支持 Web UI 与 API 模式,解决显存不足等部署难题。

LangChain-Chatchat(原 Langchain-ChatGLM)是一个基于 ChatGLM 等大语言模型与 Langchain 应用框架实现的开源项目。它支持检索增强生成(RAG),可实现离线部署的本地大模型知识库,无需联网即可运行私有化 AI 应用。
建议安装 Python 3.10 版本,以确保兼容性。
python --version
若未安装,请前往官网下载并配置环境变量。
项目依赖 Git 拉取代码及模型文件,需确保已安装 Git LFS。
git lfs install
验证安装:
git lfs version
为避免依赖冲突,建议使用 conda 或 venv 创建独立环境。
conda create -n langchain python=3.10
conda activate langchain
git clone https://github.com/chatchat-space/Langchain-Chatchat.git
cd Langchain-Chatchat
根据需求选择安装全部依赖、仅 API 或仅 Web UI。
安装全部依赖:
pip install -r requirements.txt
仅安装 API:
pip install -r requirements_api.txt
仅安装 Web UI:
pip install -r requirements_webui.txt
由于 HuggingFace 访问限制,推荐使用镜像站点下载模型。
下载 ChatGLM2-6B 模型:
git clone https://hf-mirror.com/THUDM/chatglm2-6b
下载 Embedding 模型(如 m3e-base):
git clone https://hf-mirror.com/moka-ai/m3e-base
复制默认配置示例文件。
python copy_config_example.py
修改 config.ini 中的模型路径,确保指向本地下载的模型目录。
执行脚本构建向量数据库索引。
python init_database.py --recreate-vs
此步骤会加载文档并建立索引,首次运行时间较长。
使用以下命令同时启动 API 和 Web UI。
python startup.py -a
启动成功后,终端将显示服务地址。
在浏览器中打开 http://127.0.0.1:8501 查看 Web 界面。
API 接口通常运行在 http://127.0.0.1:8000。
确认 PyTorch 是否识别到 GPU。
import torch
print(torch.__version__)
print(torch.cuda.is_available())
若返回 False,则需安装 CUDA 支持的 PyTorch 版本。
目前主流支持 CUDA 11.8 或 12.1。下载并安装对应版本的 CUDA Toolkit。 安装完成后验证版本:
nvcc --version
通过指定 index-url 安装支持 CUDA 的版本。
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
若上述方式无法安装,可下载对应的 .whl 包进行本地安装。
例如 Windows 下 cu121 + py3.10 版本:
pip install g:/AI/torch-2.1.0+cu121-cp310-cp310-win_amd64.whl
再次运行检查脚本,确认 torch.cuda.is_available() 返回 True。
若显存较小(如 8GB),运行 6B 参数模型可能报 OOM 错误。此时建议使用量化模型(如 int4)。
从镜像站下载量化版模型。
git clone https://hf-mirror.com/THUDM/chatglm2-6b-int4
编辑 model_config.py,将 LLM_MODEL_PATH 指向量化模型路径。
# 示例配置
MODEL_CONFIG = {
"llm_model": "chatglm2-6b-int4",
# ... 其他配置
}
python startup.py -a
量化模型推理速度更快,且对显存要求更低,适合消费级显卡。
若遇到 ImportError,尝试清理 pip 缓存后重新安装。
pip cache purge
pip install -r requirements.txt --force-reinstall
检查 config.ini 中的路径是否正确,确保模型文件完整下载。
若启动报错端口被占用,可修改 startup.py 中的端口号或在命令行指定端口。
确保终端编码为 UTF-8,或在 Python 脚本开头添加编码声明。
本文介绍了在 Windows 11 环境下部署 Langchain-Chatchat 的完整流程。通过合理配置 Python 环境、CUDA 加速及模型量化策略,用户可以在本地构建高效的 RAG 知识库系统。对于资源受限的设备,量化模型是提升可用性的关键方案。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online