LangChain 开发环境准备:AI 大模型私有部署技术指南
引言
随着人工智能技术的飞速发展,大语言模型(LLM)已成为构建智能应用的核心基础设施。然而,直接使用 OpenAI 等公有云 API 面临数据隐私泄露、网络延迟高、调用成本不可控以及合规性限制等问题。因此,在本地服务器或私有云环境中部署开源大模型,并结合 LangChain 框架进行应用开发,成为企业级开发的首选方案。本文将以百川智能发布的 Baichuan2-13B-Chat-4bits 模型为例,详细讲解如何在 Linux 环境下完成从环境搭建、模型下载、依赖配置到基于 FastAPI 和 LangChain 的私有化部署全流程。
一、基础环境准备
1.1 硬件与系统要求
私有化部署对硬件资源有较高要求。对于 13B 参数量的 4bit 量化模型,建议至少配备 16GB 显存的 NVIDIA GPU(如 RTX 3090/4090 或 A10/A100)。若使用 CPU 推理,内存需 32GB 以上,但速度较慢。操作系统推荐使用 Ubuntu 20.04 或 CentOS 7 及以上版本,本文以 Linux 环境为主。
显存估算公式:
- FP16 精度:参数量 * 2 Bytes + 激活值开销 ≈ 13B * 2 = 26GB
- INT8 量化:参数量 * 1 Byte ≈ 13GB
- INT4 量化:参数量 * 0.5 Byte ≈ 6.5GB + 上下文缓存
1.2 软件环境安装
- Python 环境:推荐安装 Python 3.8 至 3.10 版本。避免使用过新的 Python 版本以防部分旧版库兼容性不佳。
python --version - 虚拟环境:强烈建议使用 conda 或 venv 隔离项目依赖。
conda create -n llm_env python=3.9 conda activate llm_env - PyTorch 与 CUDA:根据显卡驱动版本选择匹配的 PyTorch 版本。CUDA 11.4 及以上支持较好。
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 - Git 工具:用于管理代码仓库。
apt-get install git
二、模型获取与配置
2.1 注册 Hugging Face
Baichuan2 模型托管于 Hugging Face Hub。首次使用前需注册账号并生成访问令牌(Access Token)。
- 登录 https://huggingface.co/settings/tokens
- 创建新 Token,勾选
read权限。 - 设置环境变量保存 Token(避免硬编码):
export HF_TOKEN=your_token_here
2.2 模型下载
由于模型文件较大(约 8GB),建议使用 huggingface-cli 工具加速下载,或使用 aria2 多线程下载。
huggingface-cli download baichuan-inc/Baichuan2-13B-Chat-4bits --local-dir ./models/baichuan2-13b
确保目录结构包含 config.json, pytorch_model.bin, 等关键文件。


