DeepSeek-R1-Distill-Qwen-1.5B 部署指南：vLLM 与 Open-WebUI 集成 | 极客日志

PythonAI算法

DeepSeek-R1-Distill-Qwen-1.5B 部署指南：vLLM 与 Open-WebUI 集成

介绍如何在本地部署 DeepSeek-R1-Distill-Qwen-1.5B 模型。通过配置 Ubuntu 系统、Python 虚拟环境及 NVIDIA 驱动，利用 vLLM 提供高性能推理服务，并结合 Open-WebUI 构建对话界面。支持 GGUF 量化版本以降低显存占用，实现离线运行、函数调用及结构化输出。适用于 4GB 以上显存的设备，无需云端 API 即可体验大模型能力。

微码行者发布于 2026/4/5更新于 2026/5/2126 浏览

DeepSeek-R1-Distill-Qwen-1.5B 部署指南：vLLM 与 Open-WebUI 集成

1. 为何选择 DeepSeek-R1-Distill-Qwen-1.5B

DeepSeek-R1-Distill-Qwen-1.5B 是一款轻量级大模型，基于通义千问 Qwen-1.5B 进行深度蒸馏，包含 80 万条高质量 R1 推理链。该模型参数为 15 亿，fp16 整模约 3.0 GB，量化至 GGUF-Q4 后压缩至 0.8 GB，适合在低显存设备（如 4GB 显存）上运行。

模型支持 Apache 2.0 协议，商用免费。在 MATH 数据集表现优异，支持 Python 函数生成、JSON 输出及快速响应（超过 200 tokens/s），适用于日常脚本编写、方程求解及 API 调试。

2. 环境准备

2.1 硬件要求

最低配置：4 GB 显存（RTX 3050 / A10G / RTX 4060）
推荐配置：6 GB 显存（RTX 3060 / A10 / L4），可满速运行 fp16
边缘设备实测：RK3588（8GB 内存+GPU）16 秒完成 1k token 推理
手机端：苹果 A17 芯片（iPhone 15 Pro）量化版达 120 tokens/s

提示：若无 NVIDIA 显卡，支持 Ollama 和 CPU GGUF 推理（速度约 5–10 tokens/s）。

2.2 软件环境

以 Ubuntu 22.04 LTS 为例（Windows 用户建议 WSL2）：

# 更新系统并安装基础工具
sudo apt update && sudo apt upgrade -y
sudo apt install -y python3-pip python3-venv git curl wget build-essential

# 安装 NVIDIA 驱动（如未安装）
sudo apt install -y nvidia-driver-535
sudo reboot

确认 CUDA 可用：

nvidia-smi
nvcc --version

2.3 Python 环境

创建独立虚拟环境以避免依赖冲突：

python3 -m venv ~/deepseek-env
source ~/deepseek-env/bin/activate
pip install --upgrade pip wheel setuptools

注意：vLLM 对 CUDA 版本和 PyTorch ABI 敏感，隔离环境是避免 ImportError 的关键。

3. 模型获取与格式选择

3.1 模型来源

模型托管于 Hugging Face：

模型主页：https://huggingface.co/DeepSeek-AI/DeepSeek-R1-Distill-Qwen-1.5B
GGUF 量化版（推荐新手）：https://huggingface.co/DeepSeek-AI/DeepSeek-R1-Distill-Qwen-1.5B-GGUF

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

mkdir -p ~/models/deepseek-r1
cd ~/models/deepseek-r1
pip install hf-transfer
export HF_TRANSFER=1

huggingface-cli download \
--resume-download \
--local-dir . \
DeepSeek-AI/DeepSeek-R1-Distill-Qwen-1.5B-GGUF \
--include "q4_k_m/*.gguf" \
--include "tokenizer.json" \
--include "config.json"

~/models/deepseek-r1/
├── tokenizer.json
├── config.json
└── q4_k_m/
    └── deepseek-r1-distill-qwen-1.5b.Q4_K_M.gguf

pip install vllm==0.6.3.post1
python -c "from vllm import LLM; print('vLLM ready')"

vllm serve \
--model ~/models/deepseek-r1/q4_k_m/deepseek-r1-distill-qwen-1.5b.Q4_K_M.gguf \
--tokenizer ~/models/deepseek-r1/tokenizer.json \
--dtype auto \
--gpu-memory-utilization 0.9 \
--max-model-len 4096 \
--port 8000 \
--host 0.0.0.0 \
--served-model-name deepseek-r1-qwen-1.5b

curl http://localhost:8000/v1/models

docker pull ghcr.io/open-webui/open-webui:main
mkdir -p ~/open-webui/data

docker run -d \
--network=host \
--name open-webui \
-v ~/open-webui/data:/app/backend/data \
-e OLLAMA_BASE_URL=http://host.docker.internal:8000 \
-p 3000:8080 \
ghcr.io/open-webui/open-webui:main

def calculate(expression: str) -> str:
    try:
        return str(eval(expression))
    except:
        return "计算错误"

pip uninstall flash-attn -y
pip install flash-attn --no-build-isolation

vllm serve ... --log-level DEBUG > vllm-debug.log 2>&1 &
watch -n 1 'nvidia-smi --query-gpu=memory.used,memory.total --format=csv,noheader,nounits'

DeepSeek-R1-Distill-Qwen-1.5B 部署指南：vLLM 与 Open-WebUI 集成

DeepSeek-R1-Distill-Qwen-1.5B 部署指南：vLLM 与 Open-WebUI 集成

1. 为何选择 DeepSeek-R1-Distill-Qwen-1.5B

2. 环境准备

2.1 硬件要求

2.2 软件环境

2.3 Python 环境

3. 模型获取与格式选择

3.1 模型来源

更多推荐文章

相关免费在线工具

3.2 下载方式

4. vLLM 服务部署

4.1 安装 vLLM

4.2 启动 vLLM API 服务

5. Open-WebUI 部署

5.1 安装 Open-WebUI

5.2 首次访问与模型绑定

6. 进阶配置

6.1 启用 JSON 模式

6.2 函数调用实战

6.3 长文本摘要

6.4 速度再提速

6.5 日志与监控

7. 总结

更多推荐文章

相关免费在线工具

DeepSeek-R1-Distill-Qwen-1.5B 部署指南：vLLM 与 Open-WebUI 集成

DeepSeek-R1-Distill-Qwen-1.5B 部署指南：vLLM 与 Open-WebUI 集成

1. 为何选择 DeepSeek-R1-Distill-Qwen-1.5B

2. 环境准备

2.1 硬件要求

2.2 软件环境

2.3 Python 环境

3. 模型获取与格式选择

3.1 模型来源

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 下载方式

4. vLLM 服务部署

4.1 安装 vLLM

4.2 启动 vLLM API 服务

5. Open-WebUI 部署

5.1 安装 Open-WebUI

5.2 首次访问与模型绑定

6. 进阶配置

6.1 启用 JSON 模式

6.2 函数调用实战

6.3 长文本摘要

6.4 速度再提速

6.5 日志与监控

7. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具