基于 Langchain-Chatchat 快速搭建本地 LLM 智能知识库

Langchain-Chatchat 是一个基于 ChatGLM 等大语言模型与 Langchain 框架实现的开源、可离线部署的检索增强生成 (RAG) 大模型知识库项目。

本项目利用 langchain 思想实现的基于本地知识库的问答应用，目前 langchain 可以说是开发 LLM 应用的首选框架，而本项目的目标就是建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。

依托于本项目支持的开源 LLM 与 Embedding 模型，本项目可实现全部使用开源模型离线私有部署。与此同时，本项目也支持 OpenAI GPT API 的调用，并将在后续持续扩充对各类模型及模型 API 的接入。

实现原理

本项目全流程使用开源模型来实现本地知识库问答应用，最新版本中通过使用 FastChat 接入 Vicuna, Alpaca, LLaMA, Koala, RWKV 等模型，依托于 langchain 框架支持通过基于 FastAPI 提供的 API 调用服务，或使用基于 Streamlit 的 WebUI 进行操作。

可以通过下面的图来直观看到的整个流程的执行过程，非常值得参考学习。

Langchain-Chatchat 架构图

再从从文档处理角度来看，实现流程如下：

文档处理流程

这里需要注意，本项目未涉及微调、训练过程，但可利用微调或训练对本项目效果进行优化。

部署要求

软件要求：

操作系统

Linux Ubuntu 22.04.5 kernel version 6.7

其他系统可能出现系统兼容性问题。

最低要求

该要求仅针对标准模式，轻量模式使用在线模型，不需要安装 torch 等库，也不需要显卡即可运行。

Python 版本：>= 3.8(很不稳定), < 3.12
CUDA 版本：>= 12.1

推荐要求

开发者在以下环境下进行代码调试，在该环境下能够避免最多环境问题。

Python 版本 == 3.11.7
CUDA 版本：== 12.1

硬件要求：

如果想要顺利在 GPU 运行本地模型的 FP16 版本，你至少需要以下的硬件配置，来保证在我们框架下能够实现稳定连续对话

ChatGLM3-6B & LLaMA-7B-Chat 等 7B 模型最低显存要求：14GB 推荐显卡：RTX 4080
Qwen-14B-Chat 等 14B 模型最低显存要求：30GB 推荐显卡：V100
Yi-34B-Chat 等 34B 模型最低显存要求：69GB 推荐显卡：A100
Qwen-72B-Chat 等 72B 模型最低显存要求：145GB 推荐显卡：多卡 A100 以上

实际部署配置示例

处理器：Intel® Core™ i9 processor 14900K 
内存：256 GB DDR5
显卡组：NVIDIA RTX4090 X 1 / NVIDIA RTXA6000 X 
硬盘： TB
操作系统：Ubuntu  LTS / Arch Linux, Linux Kernel 
显卡驱动版本：
Cuda 版本： Update 
Python 版本：