DeepSeek-R1-Distill-Qwen-1.5B 本地部署：vLLM+Open-WebUI 环境搭建 | 极客日志

PythonAI算法

DeepSeek-R1-Distill-Qwen-1.5B 本地部署：vLLM+Open-WebUI 环境搭建

介绍 DeepSeek-R1-Distill-Qwen-1.5B 模型的本地部署流程。涵盖硬件软件环境准备，模型 GGUF/FP16 格式选择与下载，基于 vLLM 启动高性能推理服务，以及通过 Open-WebUI 搭建对话界面。包含 JSON 模式、函数调用等进阶配置，适用于低显存设备运行轻量级推理模型。

猫巷少女发布于 2026/4/6更新于 2026/7/2549 浏览

DeepSeek-R1-Distill-Qwen-1.5B 本地部署：vLLM+Open-WebUI 环境搭建

1. 模型概述

DeepSeek-R1-Distill-Qwen-1.5B 是一款轻量级推理模型，基于通义千问 Qwen-1.5B 进行深度蒸馏。该模型拥有 15 亿参数，fp16 整模约 3.0 GB；量化到 GGUF-Q4 后压缩至 0.8 GB，适用于低显存设备（如 RTX 3050、RK3588 等）。模型采用 Apache 2.0 协议，支持商用。

在 MATH 数据集上表现接近 80 分，HumanEval 超 50，推理链保留率 85%，支持 JSON 输出及 Python 函数生成。

2. 环境准备：硬件与基础依赖

2.1 硬件要求

最低配置：4 GB 显存（RTX 3050 / A10G / RTX 4060）
推荐配置：6 GB 显存（RTX 3060 / A10 / L4），可满速运行 fp16
边缘设备实测：RK3588（8GB 内存+GPU）16 秒完成 1k token 推理
手机端：苹果 A17 芯片（iPhone 15 Pro）量化版达 120 tokens/s

提示：无 NVIDIA 显卡时，支持 Ollama 和 CPU GGUF 推理（速度约 5–10 tokens/s）。

2.2 软件环境：Ubuntu 22.04 LTS

# 更新系统并安装基础工具
sudo apt update && sudo apt upgrade -y
sudo apt install -y python3-pip python3-venv git curl wget build-essential

# 安装 NVIDIA 驱动（如未安装）
sudo apt install -y nvidia-driver-535
sudo reboot

确认 CUDA 可用：

nvidia-smi
nvcc --version

2.3 Python 环境：隔离干净，避免冲突

# 创建独立虚拟环境
python3 -m venv ~/deepseek-env
source ~/deepseek-env/bin/activate

# 升级 pip 并安装核心依赖
pip install --upgrade pip
pip install wheel setuptools

注意：建议使用独立虚拟环境，避免 ImportError: libcudart.so not found 类报错。

3. 模型获取与格式选择：GGUF vs FP16

3.1 模型来源：Hugging Face 官方仓库

模型主页：https://huggingface.co/DeepSeek-AI/DeepSeek-R1-Distill-Qwen-1.5B
GGUF 量化版（推荐新手）：https://huggingface.co/DeepSeek-AI/DeepSeek-R1-Distill-Qwen-1.5B-GGUF

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 进入模型存放目录
mkdir -p ~/models/deepseek-r1
cd ~/models/deepseek-r1

# 使用 hf-transfer 加速下载
pip install hf-transfer
export HF_TRANSFER=1

# 下载 GGUF-Q4_K_M 版本
huggingface-cli download \
--resume-download \
--local-dir . \
DeepSeek-AI/DeepSeek-R1-Distill-Qwen-1.5B-GGUF \
--include "q4_k_m/*.gguf" \
--include "tokenizer.json" \
--include "config.json"

~/models/deepseek-r1/
├── tokenizer.json
├── config.json
└── q4_k_m/
    └── deepseek-r1-distill-qwen-1.5b.Q4_K_M.gguf

# 在已激活的虚拟环境中安装（CUDA 12.1 兼容版）
pip install vllm==0.6.3.post1

# 验证安装
python -c "from vllm import LLM; print('vLLM ready')"

vllm serve \
--model ~/models/deepseek-r1/q4_k_m/deepseek-r1-distill-qwen-1.5b.Q4_K_M.gguf \
--tokenizer ~/models/deepseek-r1/tokenizer.json \
--dtype auto \
--gpu-memory-utilization 0.9 \
--max-model-len 4096 \
--port 8000 \
--host 0.0.0.0 \
--served-model-name deepseek-r1-qwen-1.5b

curl http://localhost:8000/v1/models

# 拉取镜像
docker pull ghcr.io/open-webui/open-webui:main

# 创建持久化目录
mkdir -p ~/open-webui/data

# 启动容器
docker run -d \
--network=host \
--name open-webui \
-v ~/open-webui/data:/app/backend/data \
-e OLLAMA_BASE_URL=http://host.docker.internal:8000 \
-p 3000:8080 \
ghcr.io/open-webui/open-webui:main

{"function": "xxx", "params": {...}, "reasoning": "..."}

def calculate(expression: str) -> str:
    try:
        return str(eval(expression))
    except:
        return "计算错误"

pip uninstall flash-attn -y
pip install flash-attn --no-build-isolation

vllm serve ... --log-level DEBUG > vllm-debug.log 2>&1 &
watch -n 1 'nvidia-smi --query-gpu=memory.used,memory.total --format=csv,noheader,nounits'

DeepSeek-R1-Distill-Qwen-1.5B 本地部署：vLLM+Open-WebUI 环境搭建

DeepSeek-R1-Distill-Qwen-1.5B 本地部署：vLLM+Open-WebUI 环境搭建

1. 模型概述

2. 环境准备：硬件与基础依赖

2.1 硬件要求

2.2 软件环境：Ubuntu 22.04 LTS

2.3 Python 环境：隔离干净，避免冲突

3. 模型获取与格式选择：GGUF vs FP16

3.1 模型来源：Hugging Face 官方仓库

更多推荐文章

相关免费在线工具

3.2 下载方式：命令行一键拉取

4. vLLM 服务部署：高性能推理引擎启动指南

4.1 安装 vLLM

4.2 启动 vLLM API 服务

5. Open-WebUI 部署：零代码搭建对话界面

5.1 安装 Open-WebUI：Docker 一键式

5.2 首次访问与模型绑定

6. 进阶配置：让体验更顺滑的实用技巧

6.1 启用 JSON 模式

6.2 函数调用实战

6.3 长文本摘要

6.4 速度再提速：启用 FlashAttention-2

6.5 日志与监控

7. 总结

更多推荐文章

相关免费在线工具

DeepSeek-R1-Distill-Qwen-1.5B 本地部署：vLLM+Open-WebUI 环境搭建

DeepSeek-R1-Distill-Qwen-1.5B 本地部署：vLLM+Open-WebUI 环境搭建

1. 模型概述

2. 环境准备：硬件与基础依赖

2.1 硬件要求

2.2 软件环境：Ubuntu 22.04 LTS

2.3 Python 环境：隔离干净，避免冲突

3. 模型获取与格式选择：GGUF vs FP16

3.1 模型来源：Hugging Face 官方仓库

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 下载方式：命令行一键拉取

4. vLLM 服务部署：高性能推理引擎启动指南

4.1 安装 vLLM

4.2 启动 vLLM API 服务

5. Open-WebUI 部署：零代码搭建对话界面

5.1 安装 Open-WebUI：Docker 一键式

5.2 首次访问与模型绑定

6. 进阶配置：让体验更顺滑的实用技巧

6.1 启用 JSON 模式

6.2 函数调用实战

6.3 长文本摘要

6.4 速度再提速：启用 FlashAttention-2

6.5 日志与监控

7. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具