大模型推理服务框架 Xinference 一键部署指南
一、引言
大语言模型推理服务框架对于快速落地 AI 应用至关重要。Ollama 以出色的设计实现了一行命令完成推理框架部署,模型的下载不依赖网络代理,速度较快,且支持多卡 GPU 自动分片。然而,Xinference 提供了更友好的 Web UI 交互体验,支持通过 ModelScope 社区下载模型,解决了国内网络环境下 Hugging Face 连接困难的问题。
在工程实践中,选择合适的推理框架能显著降低部署门槛。Xinference 不仅支持本地单节点部署,还支持分布式集群模式,并兼容 OpenAI API 标准,便于集成到现有业务系统中。
二、环境准备
在开始部署前,请确保满足以下基础环境要求:
- 操作系统:Linux (Ubuntu/CentOS) 或 macOS。
- Docker:建议版本 20.10 及以上,用于容器化运行。
- GPU 驱动:NVIDIA CUDA Toolkit 已安装,且 Docker 支持 GPU 直通(需安装
nvidia-container-toolkit)。 - 网络:能够访问 Docker Hub 和 ModelScope 镜像源。
- 资源:根据模型大小预留足够显存(例如 Llama-3-70B 建议至少 48GB 显存)。
三、本地单节点部署
使用 Docker 可以最快地启动 Xinference 服务。以下命令将启动一个名为 xinference 的容器,映射端口 9997,并指定使用 ModelScope 作为模型下载源。
docker run -it --name xinference -d \
-p 9997:9997 \
-e XINFERENCE_MODEL_SRC=modelscope \
-e XINFERENCE_HOME=/workspace \
-v /yourworkspace/Xinference:/workspace \
--gpus all \
xprobe/xinference:latest \
xinference-local -H 0.0.0.0
参数说明
-it:交互式终端,方便查看日志。--name xinference:指定容器名称。-d:后台运行模式。-p 9997:9997:宿主机端口 9997 映射到容器内部 9997。-e XINFERENCE_MODEL_SRC=modelscope:指定模型来源为 ModelScope,避免直接连接 Hugging Face。-e XINFERENCE_HOME=/workspace:设置容器内工作目录。-v /yourworkspace/Xinference:/workspace:挂载宿主机目录,持久化模型数据。--gpus all:允许容器使用宿主机所有 GPU 设备。xinference-local -H 0.0.0.0:启动本地模式,监听所有网络接口。
四、分布式集群部署
对于大规模推理需求,可采用 Supervisor + Worker 架构。
1. Master 节点部署
docker run -it --name xinference-master -d \
-p 9997:9997 \
-e XINFERENCE_MODEL_SRC=modelscope \
-e XINFERENCE_HOME=/workspace \
-v /yourworkspace/Xinference:/workspace \
--gpus all \
xprobe/xinference:latest \
xinference-supervisor -H "${master_host}"


