基于 Langchain-Chatchat 快速搭建本地 LLM 智能知识库
Langchain-Chatchat 是一个基于 ChatGLM 等大语言模型与 Langchain 框架实现的开源、可离线部署的检索增强生成 (RAG) 大模型知识库项目。
本项目利用 langchain 思想实现的基于本地知识库的问答应用,目前 langchain 可以说是开发 LLM 应用的首选框架,而本项目的目标就是建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。
依托于本项目支持的开源 LLM 与 Embedding 模型,本项目可实现全部使用开源模型离线私有部署。与此同时,本项目也支持 OpenAI GPT API 的调用,并将在后续持续扩充对各类模型及模型 API 的接入。
实现原理
本项目全流程使用开源模型来实现本地知识库问答应用,最新版本中通过使用 FastChat 接入 Vicuna, Alpaca, LLaMA, Koala, RWKV 等模型,依托于 langchain 框架支持通过基于 FastAPI 提供的 API 调用服务,或使用基于 Streamlit 的 WebUI 进行操作。
可以通过下面的图来直观看到的整个流程的执行过程,非常值得参考学习。

再从从文档处理角度来看,实现流程如下:

这里需要注意,本项目未涉及微调、训练过程,但可利用微调或训练对本项目效果进行优化。
部署要求
软件要求:
操作系统
- Linux Ubuntu 22.04.5 kernel version 6.7
其他系统可能出现系统兼容性问题。
最低要求
该要求仅针对标准模式,轻量模式使用在线模型,不需要安装 torch 等库,也不需要显卡即可运行。
- Python 版本:>= 3.8(很不稳定), < 3.12
- CUDA 版本:>= 12.1
推荐要求
开发者在以下环境下进行代码调试,在该环境下能够避免最多环境问题。
- Python 版本 == 3.11.7
- CUDA 版本:== 12.1
硬件要求:
如果想要顺利在 GPU 运行本地模型的 FP16 版本,你至少需要以下的硬件配置,来保证在我们框架下能够实现 稳定连续对话
- ChatGLM3-6B & LLaMA-7B-Chat 等 7B 模型 最低显存要求:14GB 推荐显卡:RTX 4080
- Qwen-14B-Chat 等 14B 模型 最低显存要求:30GB 推荐显卡:V100
- Yi-34B-Chat 等 34B 模型 最低显存要求:69GB 推荐显卡:A100
- Qwen-72B-Chat 等 72B 模型 最低显存要求:145GB 推荐显卡:多卡 A100 以上
实际部署配置示例
处理器:Intel® Core™ i9 processor 14900K
内存:256 GB DDR5
显卡组:NVIDIA RTX4090 X 1 / NVIDIA RTXA6000 X
硬盘: TB
操作系统:Ubuntu LTS / Arch Linux, Linux Kernel
显卡驱动版本:
Cuda 版本: Update
Python 版本:






