大模型推理服务框架 Xinference 一键部署指南

一、引言

大语言模型推理服务框架对于快速落地 AI 应用至关重要。Ollama 以出色的设计实现了一行命令完成推理框架部署，模型的下载不依赖网络代理，速度较快，且支持多卡 GPU 自动分片。然而，Xinference 提供了更友好的 Web UI 交互体验，支持通过 ModelScope 社区下载模型，解决了国内网络环境下 Hugging Face 连接困难的问题。

在工程实践中，选择合适的推理框架能显著降低部署门槛。Xinference 不仅支持本地单节点部署，还支持分布式集群模式，并兼容 OpenAI API 标准，便于集成到现有业务系统中。

二、环境准备

在开始部署前，请确保满足以下基础环境要求：

操作系统：Linux (Ubuntu/CentOS) 或 macOS。
Docker：建议版本 20.10 及以上，用于容器化运行。
GPU 驱动：NVIDIA CUDA Toolkit 已安装，且 Docker 支持 GPU 直通（需安装 nvidia-container-toolkit）。
网络：能够访问 Docker Hub 和 ModelScope 镜像源。
资源：根据模型大小预留足够显存（例如 Llama-3-70B 建议至少 48GB 显存）。

三、本地单节点部署

使用 Docker 可以最快地启动 Xinference 服务。以下命令将启动一个名为 xinference 的容器，映射端口 9997，并指定使用 ModelScope 作为模型下载源。

docker run -it --name xinference -d \
  -p 9997:9997 \
  -e XINFERENCE_MODEL_SRC=modelscope \
  -e XINFERENCE_HOME=/workspace \
  -v /yourworkspace/Xinference:/workspace \
  --gpus all \
  xprobe/xinference:latest \
  xinference-local -H 0.0.0.0

参数说明

-it：交互式终端，方便查看日志。
--name xinference：指定容器名称。
-d：后台运行模式。
-p 9997:9997：宿主机端口 9997 映射到容器内部 9997。
-e XINFERENCE_MODEL_SRC=modelscope：指定模型来源为 ModelScope，避免直接连接 Hugging Face。
-e XINFERENCE_HOME=/workspace：设置容器内工作目录。
-v /yourworkspace/Xinference:/workspace：挂载宿主机目录，持久化模型数据。
--gpus all：允许容器使用宿主机所有 GPU 设备。
xinference-local -H 0.0.0.0：启动本地模式，监听所有网络接口。

四、分布式集群部署

对于大规模推理需求，可采用 Supervisor + Worker 架构。

1. Master 节点部署

docker run -it --name xinference-master -d \
  -p 9997:9997 \
  -e XINFERENCE_MODEL_SRC=modelscope \
  -e XINFERENCE_HOME=/workspace \
  -v /yourworkspace/Xinference:/workspace \
  --gpus all \
  xprobe/xinference:latest \
  xinference-supervisor -H "${master_host}"

大模型推理服务框架 Xinference 一键部署指南

大模型推理服务框架 Xinference 一键部署指南

一、引言

二、环境准备

三、本地单节点部署

参数说明

四、分布式集群部署

1. Master 节点部署

2. Worker 节点部署

更多推荐文章

相关免费在线工具

五、Web UI 操作指南

1. 启动模型 (Launch Model)

2. 运行中的模型 (Running Models)

3. 注册自定义模型 (Register Model)

4. 集群信息 (Cluster Information)

六、API 调用示例

1. Curl 请求

2. Python SDK 调用

3. Dify 平台集成

七、常见问题与优化建议

1. 模型下载慢

2. 显存不足

3. 端口冲突

4. 数据安全

八、总结

更多推荐文章

相关免费在线工具

大模型推理服务框架 Xinference 一键部署指南

大模型推理服务框架 Xinference 一键部署指南

一、引言

二、环境准备

三、本地单节点部署

参数说明

四、分布式集群部署

1. Master 节点部署

2. Worker 节点部署

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

五、Web UI 操作指南

1. 启动模型 (Launch Model)

2. 运行中的模型 (Running Models)

3. 注册自定义模型 (Register Model)

4. 集群信息 (Cluster Information)

六、API 调用示例

1. Curl 请求

2. Python SDK 调用

3. Dify 平台集成

七、常见问题与优化建议

1. 模型下载慢

2. 显存不足

3. 端口冲突

4. 数据安全

八、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具