vLLM-Omni 部署 Qwen3-Omni 模型实战指南

vLLM-Omni 框架简介

vLLM-Omni 扩展了原始 vLLM 框架，增加了对非自回归架构和扩散变换器（DiT）的支持，为全模态模型提供高性能的推理服务。

环境准备与安装

系统要求

Linux 操作系统
Python 3.8+
CUDA/ROCm/NPU 支持

安装步骤

git clone https://gitcode.com/GitHub_Trending/vl/vllm-omni
cd vllm-omni
pip install -e .

Qwen3-Omni 模型部署

启动 API 服务器

使用简单的命令行即可启动 Qwen3-Omni 模型服务：

vllm serve Qwen/Qwen3-Omni-30B-A3B-Instruct --omni --port 8091

对于需要自定义配置的场景，可以使用阶段配置文件：

vllm serve Qwen/Qwen3-Omni-30B-A3B-Instruct --omni --port 8091 --stage-configs-path /path/to/stage_configs_file

多模态请求处理

Python 客户端调用

进入示例目录：

cd examples/online_serving/qwen3_omni

发送多模态请求：

python openai_chat_completion_client_for_multimodal_generation.py --query-type use_image

支持的查询类型包括：

text：纯文本输入
use_audio：音频输入
use_image：图像输入
use_video：视频输入

使用本地媒体文件

支持本地音频、视频、图像文件的直接处理：

# 使用本地视频文件
python openai_chat_completion_client_for_multimodal_generation.py --query-type use_video --video-path /path/to/video.mp4
# 使用本地图像文件
python openai_chat_completion_client_for_multimodal_generation.py --query-type use_image --image-path /path/to/image.jpg
# 使用本地音频文件
python openai_chat_completion_client_for_multimodal_generation.py --query-type use_audio --audio-path /path/to/audio.wav

本地 Web 界面部署

一键启动脚本（推荐）

使用便利脚本同时启动 vLLM 服务器和 Gradio 演示界面：

./run_gradio_demo.sh --model Qwen/Qwen3-Omni-30B-A3B-Instruct --server-port 8091 --gradio-port 7861

vLLM-Omni 框架简介

vLLM-Omni 扩展了原始 vLLM 框架，增加了对非自回归架构和扩散变换器（DiT）的支持，为全模态模型提供高性能的推理服务。

环境准备与安装

系统要求

Linux 操作系统
Python 3.8+
CUDA/ROCm/NPU 支持

安装步骤

git clone https://gitcode.com/GitHub_Trending/vl/vllm-omni
cd vllm-omni
pip install -e .

Qwen3-Omni 模型部署

启动 API 服务器

使用简单的命令行即可启动 Qwen3-Omni 模型服务：

vllm serve Qwen/Qwen3-Omni-30B-A3B-Instruct --omni --port 8091

对于需要自定义配置的场景，可以使用阶段配置文件：

vllm serve Qwen/Qwen3-Omni-30B-A3B-Instruct --omni --port 8091 --stage-configs-path /path/to/stage_configs_file

多模态请求处理

Python 客户端调用

进入示例目录：

cd examples/online_serving/qwen3_omni

发送多模态请求：

python openai_chat_completion_client_for_multimodal_generation.py --query-type use_image

支持的查询类型包括：

text：纯文本输入
use_audio：音频输入
use_image：图像输入
use_video：视频输入

使用本地媒体文件

支持本地音频、视频、图像文件的直接处理：

# 使用本地视频文件
python openai_chat_completion_client_for_multimodal_generation.py --query-type use_video --video-path /path/to/video.mp4
# 使用本地图像文件
python openai_chat_completion_client_for_multimodal_generation.py --query-type use_image --image-path /path/to/image.jpg
# 使用本地音频文件
python openai_chat_completion_client_for_multimodal_generation.py --query-type use_audio --audio-path /path/to/audio.wav

本地 Web 界面部署

一键启动脚本（推荐）

使用便利脚本同时启动 vLLM 服务器和 Gradio 演示界面：

./run_gradio_demo.sh --model Qwen/Qwen3-Omni-30B-A3B-Instruct --server-port 8091 --gradio-port 7861

vLLM-Omni 部署 Qwen3-Omni 模型实战指南

vLLM-Omni 框架简介

环境准备与安装

系统要求

安装步骤

Qwen3-Omni 模型部署

启动 API 服务器

多模态请求处理

Python 客户端调用

使用本地媒体文件

本地 Web 界面部署

一键启动脚本（推荐）

vLLM-Omni 部署 Qwen3-Omni 模型实战指南

vLLM-Omni 框架简介

环境准备与安装

系统要求

安装步骤

Qwen3-Omni 模型部署

启动 API 服务器

多模态请求处理

Python 客户端调用

使用本地媒体文件

本地 Web 界面部署

一键启动脚本（推荐）

更多推荐文章

相关免费在线工具

手动启动方式

性能优化技巧

模态控制

内存优化

常见问题解决

音频处理依赖

最佳实践建议

更多推荐文章

相关免费在线工具

vLLM-Omni 部署 Qwen3-Omni 模型实战指南

vLLM-Omni 框架简介

环境准备与安装

系统要求

安装步骤

Qwen3-Omni 模型部署

启动 API 服务器

多模态请求处理

Python 客户端调用

使用本地媒体文件

本地 Web 界面部署

一键启动脚本（推荐）

vLLM-Omni 部署 Qwen3-Omni 模型实战指南

vLLM-Omni 框架简介

环境准备与安装

系统要求

安装步骤

Qwen3-Omni 模型部署

启动 API 服务器

多模态请求处理

Python 客户端调用

使用本地媒体文件

本地 Web 界面部署

一键启动脚本（推荐）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

手动启动方式

性能优化技巧

模态控制

内存优化

常见问题解决

音频处理依赖

最佳实践建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具