vLLM + Open-WebUI 部署通义千问 2.5-7B 完整教程 | 极客日志

PythonAI算法

vLLM + Open-WebUI 部署通义千问 2.5-7B 完整教程

基于 vLLM 和 Open-WebUI 部署通义千问 2.5-7B-Instruct 模型的完整流程。涵盖环境准备（Docker、GPU）、模型下载、服务启动及 Web 界面配置。通过 vLLM 实现高性能推理，利用 Open-WebUI 提供类 ChatGPT 交互体验。包含性能优化建议及常见问题排查方法，适用于本地或服务器私有化部署场景。

技术博主发布于 2026/4/5更新于 2026/7/2050 浏览

vLLM + Open-WebUI 部署通义千问 2.5-7B 完整教程

引言

学习目标

本文将详细介绍如何使用 vLLM 和 Open-WebUI 联合部署阿里云发布的开源大模型——通义千问 2.5-7B-Instruct。通过本教程，你将掌握：

如何在本地或服务器环境中部署 Qwen2.5-7B 模型
利用 vLLM 实现高性能推理（支持 Tensor Parallelism、PagedAttention）
使用 Open-WebUI 提供类 ChatGPT 的可视化交互界面
完整的环境配置、服务启动与访问流程
常见问题排查与性能优化建议

最终实现：通过浏览器访问 http://localhost:7860，即可与通义千问进行流畅对话。

前置知识

为顺利执行本教程，请确保具备以下基础：

熟悉 Linux 命令行操作（Ubuntu/CentOS）
已安装 Docker 或 Conda 环境
显卡为 NVIDIA GPU（推荐 RTX 3060 及以上，显存 ≥12GB）
Python 3.10+ 基础使用能力
对 LLM 推理框架有基本了解（如 Hugging Face Transformers）

方案优势

相比直接使用 transformers 加载模型，本方案具有以下优势：

特性	说明
高吞吐	vLLM 支持 PagedAttention，提升并发处理能力
快响应	Token 生成速度可达 100+ tokens/s（FP16）
易用性	Open-WebUI 提供图形化界面，无需编程即可交互
可扩展	支持多用户、API 接口调用、Agent 集成

环境准备

硬件要求

组件	最低要求	推荐配置
GPU	NVIDIA RTX 3060 (12GB)	A100 / RTX 4090
显存	≥14 GB（FP16）	≥24 GB
内存	32 GB	64 GB
存储	50 GB SSD	100 GB NVMe

注意：若使用量化版本（如 GGUF Q4_K_M），可在 8GB 显存设备运行，但本教程以 FP16 全精度为主。

软件依赖

请依次安装以下软件：

# 1. 更新系统包
sudo apt update && sudo apt upgrade -y

# 2. 安装 NVIDIA 驱动和 CUDA
# 根据你的显卡型号选择合适驱动，参考官方文档：



curl -fsSL https://get.docker.com | sh
 systemctl  docker --now
distribution=$(. /etc/os-release; $ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey |  apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker//nvidia-docker.list |   /etc/apt/sources.list.d/nvidia-docker.list
 apt update
 apt install -y nvidia-docker2
 systemctl restart docker

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

docker run --rm --gpus all nvidia/cuda:12.1-base nvidia-smi

# 登录 HF CLI（首次使用）
huggingface-cli login

# 创建模型目录
mkdir -p /opt/models/qwen2.5-7b-instruct

# 使用 git-lfs 拉取模型（约 28GB）
git lfs install
git clone https://huggingface.co/Qwen/Qwen2.5-7B-Instruct /opt/models/qwen2.5-7b-instruct

docker run -d --gpus all --shm-size 1g \
  -p 8000:8000 \
  -v /opt/models/qwen2.5-7b-instruct:/model \
  --name vllm-server \
  vllm/vllm-openai:latest \
  --model /model \
  --tensor-parallel-size 1 \
  --dtype half \
  --max-model-len 131072 \
  --enable-prefix-caching \
  --gpu-memory-utilization 0.95

参数	含义
`--tensor-parallel-size`	多卡并行数（单卡设为 1）
`--dtype half`	使用 FP16 精度，节省显存
`--max-model-len 131072`	支持最大上下文长度 128k
`--enable-prefix-caching`	缓存 prompt KV，提升重复提问效率
`--gpu-memory-utilization`	显存利用率控制

docker logs -f vllm-server

docker run -d -p 7860:8080 \
  -e OPEN_WEBUI_URL="http://host.docker.internal:8000" \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

请用 Python 编写一个快速排序函数，并添加详细注释。

求解方程：x^2 + 5x + 6 = 0

--enforce-eager

--max-num-seqs 256 \
--max-num-batched-tokens 4096

# 示例：使用 AutoGPTQ 转换
pip install auto-gptq
python -c "
from transformers import AutoTokenizer
from auto_gptq import AutoGPTQForCausalLM
model = AutoGPTQForCausalLM.from_pretrained('Qwen/Qwen2.5-7B-Instruct', device_map='auto')
model.quantize('path/to/qwen2.5-7b-instruct-gptq')
"

{
  "messages": [
    {
      "role": "user",
      "content": "查询北京今天的天气"
    }
  ],
  "functions": [
    {
      "name": "get_weather",
      "description": "获取指定城市的天气信息",
      "parameters": {
        "type": "object",
        "properties": {
          "city": {"type": "string", "description": "城市名"}
        },
        "required": ["city"]
      }
    }
  ],
  "function_call": "auto"
}

Write a poem about autumn in French.

-e WEBUI_AUTH=True \
-p 0.0.0.0:7860:8080

vLLM + Open-WebUI 部署通义千问 2.5-7B 完整教程

vLLM + Open-WebUI 部署通义千问 2.5-7B 完整教程

引言

学习目标

前置知识

方案优势

环境准备

硬件要求

软件依赖

更多推荐文章

相关免费在线工具

模型部署流程

获取通义千问 2.5-7B-Instruct 模型

启动 vLLM 服务

参数说明：

部署 Open-WebUI

使用说明与界面演示

初始化账户

连接 vLLM API

功能测试

可视化效果

进阶技巧与最佳实践

性能优化建议

（1）启用 Flash Attention（如有兼容内核）

（2）调整批处理大小

（3）使用量化降低显存占用

支持工具调用（Function Calling）

多语言任务测试

常见问题解答（FAQ）

启动失败：CUDA Out of Memory

Open-WebUI 无法连接 vLLM

中文输出乱码或断句异常

如何开放远程访问？

总结

核心收获

下一步学习路径

更多推荐文章

相关免费在线工具

vLLM + Open-WebUI 部署通义千问 2.5-7B 完整教程

vLLM + Open-WebUI 部署通义千问 2.5-7B 完整教程

引言

学习目标

前置知识

方案优势

环境准备

硬件要求

软件依赖

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

模型部署流程

获取通义千问 2.5-7B-Instruct 模型

启动 vLLM 服务

参数说明：

部署 Open-WebUI

使用说明与界面演示

初始化账户

连接 vLLM API

功能测试

可视化效果

进阶技巧与最佳实践

性能优化建议

（1）启用 Flash Attention（如有兼容内核）

（2）调整批处理大小

（3）使用量化降低显存占用

支持工具调用（Function Calling）

多语言任务测试

常见问题解答（FAQ）

启动失败：CUDA Out of Memory

Open-WebUI 无法连接 vLLM

中文输出乱码或断句异常

如何开放远程访问？

总结

核心收获

下一步学习路径

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具