基于 VLLM 部署 Qwen3-Embedding 模型实践

在 Ubuntu 环境下使用 vLLM 部署 Qwen3-Embedding-0.6B 模型的完整流程。内容涵盖环境配置、通过 ModelScope 下载模型、启动 Embedding 服务以及使用 OpenAI 兼容接口进行 Python 调用的代码示例。

星云发布于 2026/3/27更新于 2026/6/526 浏览

文章配图

环境

系统：Ubuntu 20.04（NVIDIA 2080Ti）

版本信息：

vLLM: 0.10.0
Python: 3.10

选择最轻量级的 0.6B 级别模型。

模型下载

推荐从 ModelScope 下载以下两个模型：

Embedding：https://www.modelscope.cn/models/Qwen/Qwen3-Embedding-0.6B
Reranker：https://www.modelscope.cn/models/Qwen/Qwen3-Reranker-0.6B

安装 modelscope 并下载到指定路径：

pip install modelscope
modelscope download --model Qwen/Qwen3-Embedding-0.6B
modelscope download --model Qwen/Qwen3-Reranker-0.6B

vLLM 环境直接安装即可：

pip install vllm

Embedding 服务

vLLM 服务启动脚本如下：

VLLM_USE_V1=0 vllm serve /home/piqd/projects/simple_serving/models/Qwen/Qwen3-Embedding-0.6B/ \
  --port 8000 \
  --task embed \
  --trust-remote-code

vLLM 相关参数可参考官方文档：vLLM Documentation

Python 调用

需要提前安装 openai 库，脚本如下：

# SPDX-License-Identifier: Apache-2.0
# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
from openai import OpenAI
from loguru import logger

# 修改 OpenAI 的 API key 和 API base 以使用 vLLM 的 API 服务器
openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"

def main():
    client = OpenAI(
        api_key=openai_api_key,
        base_url=openai_api_base,
    )
    response = client.embeddings.create(
        model=,
        =[],
    )
    logger.info(response.data[].embedding)

 __name__ == :
    main()

基于 VLLM 部署 Qwen3-Embedding 模型实践

环境

模型下载

Embedding 服务

Python 调用

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

基于 VLLM 部署 Qwen3-Embedding 模型实践

环境

模型下载

Embedding 服务

Python 调用

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具