vLLM-Omni 框架简介
vLLM-Omni 扩展了原始 vLLM 框架,增加了对非自回归架构和扩散变换器(DiT)的支持,为全模态模型提供高性能的推理服务。
环境准备与安装
系统要求
- Linux 操作系统
- Python 3.8+
- CUDA/ROCm/NPU 支持
安装步骤
git clone https://gitcode.com/GitHub_Trending/vl/vllm-omni
cd vllm-omni
pip install -e .
Qwen3-Omni 模型部署
启动 API 服务器
使用简单的命令行即可启动 Qwen3-Omni 模型服务:
vllm serve Qwen/Qwen3-Omni-30B-A3B-Instruct --omni --port 8091
对于需要自定义配置的场景,可以使用阶段配置文件:
vllm serve Qwen/Qwen3-Omni-30B-A3B-Instruct --omni --port 8091 --stage-configs-path /path/to/stage_configs_file
多模态请求处理
Python 客户端调用
进入示例目录:
cd examples/online_serving/qwen3_omni
发送多模态请求:
python openai_chat_completion_client_for_multimodal_generation.py --query-type use_image
支持的查询类型包括:
text:纯文本输入use_audio:音频输入use_image:图像输入use_video:视频输入
使用本地媒体文件
支持本地音频、视频、图像文件的直接处理:
# 使用本地视频文件
python openai_chat_completion_client_for_multimodal_generation.py --query-type use_video --video-path /path/to/video.mp4
# 使用本地图像文件
python openai_chat_completion_client_for_multimodal_generation.py --query-type use_image --image-path /path/to/image.jpg
# 使用本地音频文件
python openai_chat_completion_client_for_multimodal_generation.py --query-type use_audio --audio-path /path/to/audio.wav
本地 Web 界面部署
一键启动脚本(推荐)
使用便利脚本同时启动 vLLM 服务器和 Gradio 演示界面:
./run_gradio_demo.sh --model Qwen/Qwen3-Omni-30B-A3B-Instruct --server-port 8091 --gradio-port 7861
该脚本将:

