Xinference + DeepSeek-R1-Distill-Llama 本地部署完整流程
本文介绍在 RockyLinux 虚拟机上通过 Docker 部署 Xinference 框架并运行 DeepSeek-R1-Distill-Llama 模型的完整流程。涵盖虚拟机创建、网络配置、Yum 源更换、Docker 及 NVIDIA 驱动安装、容器启动参数配置以及模型可视化部署步骤。
实例所需配置如下:
- 服务器宿主机型号:H3C R4900 G5
- CPU:Intel Xeon Silver 4314
- 内存:32G(虚拟机创建)
- GPU:NVIDIA GeForce RTX 4090
- 硬盘:200G(虚拟机创建最好大一些,如果硬盘不够中途还得扩容)
- 架构:×86_64,部署 VMWare ESXI 7.0.3 管理虚拟机
- 系统镜像:RockyLinux 9.5
- 显卡驱动:570.133.07,CUDA 版本 12.8
- nvidia-container-tools 版本:1.18.2-1
- Docker 版本:29.2.1
- Xinference 版本:1.7.0
- 模型:deepseek-r1-distill-llama 8B(占用显存 20G)
一、创建虚拟机实例
此处以 VMWare ESXI 举例在服务器真机创建虚拟机实例,镜像安装系统全部下一步,配置参数如图。
服务器需要提前配置好防火墙策略,ESXi 主机和虚拟机是两个独立的网络层级走的不是同一个物理网口,案例服务器配置了管理网络走不通外网的物理网卡,但虚拟机都走另一张物理网卡通过防火墙出外网,如果实验服务器发现不能通外网,先不着急停止可以继续往下配置。
普通个人电脑只有一张物理网卡,虚拟机和真机都走同一张所以需要配置不同的虚拟网络模式,以及注意光盘镜像连接。
最后一定注意在 虚拟机设置 → 选项 → 高级 → 取消勾选"启用 UEFI 安全引导" 不然在显驱安装会报'内核拒绝加载未签名的 NVIDIA 驱动模块'的错误。
二、虚拟机环境搭建
前置环境部署
带安装好虚拟机后可能需要配置网络环境,案例的网络环境配置了 DHCP,如果跟跑实验的虚拟机需要手动配置网络 IP,参考配置如下:
## 查看当前网卡
[root@localhost ~]# nmcli connection show
NAME UUID TYPE DEVICE
ens192 8b92a843-29f7-32a6-a7a1-85e5f5fd4233 ethernet ens192
docker0 4bf69c2a-2719-4bd1-8183-51b9e0c2457f bridge docker0
lo 412d741f-1b25-42b9-868a-ffbb53994763 loopback lo
[root@localhost ~]# nmcli connection modify ens192 ipv4.method manual ipv4.addresses 你的 IP 地址 ipv4.gateway 你的网关地址 autoconnect yes
[root@localhost ~]# nmcli connection up ens192 Connection successfully activated (D-Bus active path: /org/freedesktop/NetworkManager/ActiveConnection/4)
[root@localhost ~]# ifconfig ens192
测试连接状态:
## 测试连接状态
[root@localhost ~]# nslookup bilibili.com
Server: 223.5.5.5 Address: 223.5.5.5#53
Non-authoritative answer:
Name: bilibili.com Address: 47.103.24.173
...
[root@localhost ~]# ping bilibili.com
PING bilibili.com (119.3.70.188) 56(84) bytes of data.
64 bytes from ecs-119-3-70-188.compute.hwclouds-dns.com (119.3.70.188): icmp_seq=1 ttl=41 =32.5 ms
...


