DeepSeek-R1-Distill-Qwen-1.5B 本地部署:vLLM+Open-WebUI 环境搭建
1. 模型概述
DeepSeek-R1-Distill-Qwen-1.5B 是一款轻量级推理模型,基于通义千问 Qwen-1.5B 进行深度蒸馏。该模型拥有 15 亿参数,fp16 整模约 3.0 GB;量化到 GGUF-Q4 后压缩至 0.8 GB,适用于低显存设备(如 RTX 3050、RK3588 等)。模型采用 Apache 2.0 协议,支持商用。
在 MATH 数据集上表现接近 80 分,HumanEval 超 50,推理链保留率 85%,支持 JSON 输出及 Python 函数生成。
2. 环境准备:硬件与基础依赖
2.1 硬件要求
- 最低配置:4 GB 显存(RTX 3050 / A10G / RTX 4060)
- 推荐配置:6 GB 显存(RTX 3060 / A10 / L4),可满速运行 fp16
- 边缘设备实测:RK3588(8GB 内存+GPU)16 秒完成 1k token 推理
- 手机端:苹果 A17 芯片(iPhone 15 Pro)量化版达 120 tokens/s
提示:无 NVIDIA 显卡时,支持 Ollama 和 CPU GGUF 推理(速度约 5–10 tokens/s)。
2.2 软件环境:Ubuntu 22.04 LTS
# 更新系统并安装基础工具
sudo apt update && sudo apt upgrade -y
sudo apt install -y python3-pip python3-venv git curl wget build-essential
# 安装 NVIDIA 驱动(如未安装)
sudo apt install -y nvidia-driver-535
sudo reboot
确认 CUDA 可用:
nvidia-smi
nvcc --version
2.3 Python 环境:隔离干净,避免冲突
# 创建独立虚拟环境
python3 -m venv ~/deepseek-env
source ~/deepseek-env/bin/activate
# 升级 pip 并安装核心依赖
pip install --upgrade pip
pip install wheel setuptools
注意:建议使用独立虚拟环境,避免
ImportError: libcudart.so not found类报错。

