DeepSeek-R1-Distill-Qwen-1.5B 部署指南:vLLM 与 Open-WebUI 集成
1. 为何选择 DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Qwen-1.5B 是一款轻量级大模型,基于通义千问 Qwen-1.5B 进行深度蒸馏,包含 80 万条高质量 R1 推理链。该模型参数为 15 亿,fp16 整模约 3.0 GB,量化至 GGUF-Q4 后压缩至 0.8 GB,适合在低显存设备(如 4GB 显存)上运行。
模型支持 Apache 2.0 协议,商用免费。在 MATH 数据集表现优异,支持 Python 函数生成、JSON 输出及快速响应(超过 200 tokens/s),适用于日常脚本编写、方程求解及 API 调试。
2. 环境准备
2.1 硬件要求
- 最低配置:4 GB 显存(RTX 3050 / A10G / RTX 4060)
- 推荐配置:6 GB 显存(RTX 3060 / A10 / L4),可满速运行 fp16
- 边缘设备实测:RK3588(8GB 内存+GPU)16 秒完成 1k token 推理
- 手机端:苹果 A17 芯片(iPhone 15 Pro)量化版达 120 tokens/s
提示:若无 NVIDIA 显卡,支持 Ollama 和 CPU GGUF 推理(速度约 5–10 tokens/s)。
2.2 软件环境
以 Ubuntu 22.04 LTS 为例(Windows 用户建议 WSL2):
# 更新系统并安装基础工具
sudo apt update && sudo apt upgrade -y
sudo apt install -y python3-pip python3-venv git curl wget build-essential
# 安装 NVIDIA 驱动(如未安装)
sudo apt install -y nvidia-driver-535
sudo reboot
确认 CUDA 可用:
nvidia-smi
nvcc --version
2.3 Python 环境
创建独立虚拟环境以避免依赖冲突:
python3 -m venv ~/deepseek-env
source ~/deepseek-env/bin/activate
pip install --upgrade pip wheel setuptools
注意:vLLM 对 CUDA 版本和 PyTorch ABI 敏感,隔离环境是避免
ImportError的关键。
3. 模型获取与格式选择
3.1 模型来源
模型托管于 Hugging Face:

