
环境
系统:Ubuntu 20.04(NVIDIA 2080Ti)
版本信息:
- vLLM: 0.10.0
- Python: 3.10
选择最轻量级的 0.6B 级别模型。
模型下载
推荐从 ModelScope 下载以下两个模型:
- Embedding:https://www.modelscope.cn/models/Qwen/Qwen3-Embedding-0.6B
- Reranker:https://www.modelscope.cn/models/Qwen/Qwen3-Reranker-0.6B
安装 modelscope 并下载到指定路径:
pip install modelscope
modelscope download --model Qwen/Qwen3-Embedding-0.6B
modelscope download --model Qwen/Qwen3-Reranker-0.6B
vLLM 环境直接安装即可:
pip install vllm
Embedding 服务
vLLM 服务启动脚本如下:
VLLM_USE_V1=0 vllm serve /home/piqd/projects/simple_serving/models/Qwen/Qwen3-Embedding-0.6B/ \
--port 8000 \
--task embed \
--trust-remote-code
vLLM 相关参数可参考官方文档:vLLM Documentation
Python 调用
需要提前安装 openai 库,脚本如下:
# SPDX-License-Identifier: Apache-2.0
# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
from openai import OpenAI
from loguru import logger
# 修改 OpenAI 的 API key 和 API base 以使用 vLLM 的 API 服务器
openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"
def main():
client = OpenAI(
api_key=openai_api_key,
base_url=openai_api_base,
)
response = client.embeddings.create(
model=,
=[],
)
logger.info(response.data[].embedding)
__name__ == :
main()


