Kubernetes AI 推理服务部署与优化实战

1. AI 推理服务核心概念

1.1 什么是 AI 推理服务

AI 推理服务本质上是将训练好的模型转化为可被调用的 API。在 Kubernetes 上运行这类服务，重点在于资源调度、性能调优以及高可用保障。

1.2 常见的 AI 推理框架

TensorFlow Serving：Google 开源的专用模型服务框架，适合 TensorFlow 生态。
TorchServe：PyTorch 官方提供的生产级服务工具。
ONNX Runtime：微软推出的跨平台推理引擎，兼容性好。
Triton Inference Server：NVIDIA 出品的高性能服务器，支持多框架混合部署。

2. GPU 资源管理

2.1 安装 GPU 驱动和 NVIDIA Device Plugin

要让 K8s 识别并使用节点上的 GPU，首先需要在节点层面安装驱动，然后部署 Device Plugin 让集群感知 GPU 资源。

# 在节点上执行安装 NVIDIA 驱动
apt-get install -y nvidia-driver-535

# 部署 NVIDIA Device Plugin
kubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.14.0/nvidia-device-plugin.yml

# 验证 GPU 是否被识别
kubectl get nodes -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.status.capacity.nvidia\.com/gpu}{"\n"}{end}'

2.2 GPU 资源分配

部署推理服务时，务必在 Pod 规格中明确声明 GPU 需求，避免资源争抢。

apiVersion: apps/v1
kind: Deployment
metadata:
  name: tensorflow-serving
  namespace: default
spec:
  replicas: 2
  selector:
    matchLabels:
      app: tensorflow-serving
  template:
    metadata:
      labels:
        app: tensorflow-serving
    spec:
      containers:
      - name: tensorflow-serving
        image: tensorflow/serving:latest
        ports:
        - containerPort: 8501
        resources:
          limits:
            nvidia.com/gpu: 1
          requests:
            nvidia.com/gpu: 1
        volumeMounts:
        - name: model-volume
          mountPath: /models
      volumes:
      - name: model-volume
        persistentVolumeClaim:
          claimName: model-pvc

3. TensorFlow Serving 部署

3.1 准备模型数据

模型文件需要持久化存储，这里使用 PVC 挂载本地或云盘。

# 创建模型目录并下载示例
mkdir -p models/mnist/1
wget -O models/mnist/1/saved_model.pb https://storage.googleapis.com/download.tensorflow.org/models/official/20181001_resnet/savedmodels/resnet_v2_fp32_savedmodel_NHWC_jpg.tar.gz

# 创建持久卷声明
kubectl create -f - <<EOF
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: model-pvc
  namespace: default
spec:
  accessModes:
  - ReadWriteOnce
  resources:
    requests:
      storage: 10Gi
EOF

3.2 部署 TensorFlow Serving

配置 Deployment 和 Service 后，即可对外提供服务。

deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: tf-serving
  namespace: default
spec:
  replicas: 2
  selector:
    matchLabels:
      app: tf-serving
  template:
    metadata:
      labels:
        app: tf-serving
    spec:
      containers:
      - name: tf-serving
        image: tensorflow/serving:latest
        ports:
        - containerPort: 8500
        - containerPort: 8501
        env:
        - name: MODEL_NAME
          value: mnist
        volumeMounts:
        - name: model-volume
          mountPath: /models
      volumes:
      - name: model-volume
        persistentVolumeClaim:
          claimName: model-pvc

service.yaml

apiVersion: v1
kind: Service
metadata:
  name: tf-serving
  namespace: default
spec:
  selector:
    app: tf-serving
  ports:
  - port: 8501
    targetPort: 8501
  type: LoadBalancer

部署完成后，可以通过 curl 测试推理接口：

MODEL_SERVICE=$(kubectl get svc tf-serving -o jsonpath='{.status.loadBalancer.ingress[0].ip}')
curl -d '{"instances": [[[0.0 for _ in range(28)] for _ in range(28)]]}' -X POST http://$MODEL_SERVICE:8501/v1/models/mnist:predict

4. Triton Inference Server 部署

Triton 的优势在于支持多种框架混合部署，且内置了动态批处理等高级功能。

deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: triton-server
  namespace: default
spec:
  replicas: 2
  selector:
    matchLabels:
      app: triton-server
  template:
    metadata:
      labels:
        app: triton-server
    spec:
      containers:
      - name: triton-server
        image: nvcr.io/nvidia/tritonserver:23.08-py3
        ports:
        - containerPort: 8000
        - containerPort: 8001
        - containerPort: 8002
        resources:
          limits:
            nvidia.com/gpu: 1
          requests:
            nvidia.com/gpu: 1
        volumeMounts:
        - name: model-volume
          mountPath: /models
      volumes:
      - name: model-volume
        persistentVolumeClaim:
          claimName: model-pvc

service.yaml

apiVersion: v1
kind: Service
metadata:
  name: triton-server
  namespace: default
spec:
  selector:
    app: triton-server
  ports:
  - port: 8000
    targetPort: 8000
  - port: 8001
    targetPort: 8001
  - port: 8002
    targetPort: 8002
  type: LoadBalancer

部署后检查状态：kubectl get pods -l app=triton-server。

5. 性能优化

5.1 模型优化

提升推理速度的基础工作：

模型量化：将 FP32 转为 INT8 或 FP16，减少显存占用并加速计算。
模型剪枝：移除冗余神经元，降低计算量。
模型蒸馏：用大模型指导小模型训练，平衡精度与速度。

5.2 推理服务优化

开启批处理能显著提升吞吐量，同时限制 GPU 内存增长策略。

apiVersion: apps/v1
kind: Deployment
metadata:
  name: tf-serving-batched
  namespace: default
spec:
  replicas: 2
  selector:
    matchLabels:
      app: tf-serving-batched
  template:
    metadata:
      labels:
        app: tf-serving-batched
    spec:
      containers:
      - name: tf-serving
        image: tensorflow/serving:latest
        ports:
        - containerPort: 8501
        env:
        - name: MODEL_NAME
          value: mnist
        - name: TF_FORCE_GPU_ALLOW_GROWTH
          value: "true"
        - name: BATCH_SIZE
          value: "32"
        resources:
          limits:
            nvidia.com/gpu: 1
          requests:
            nvidia.com/gpu: 1

5.3 自动缩放

根据负载自动调整副本数，节省成本的同时应对流量高峰。

apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: tf-serving-hpa
  namespace: default
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: tf-serving
  minReplicas: 2
  maxReplicas: 10
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 70
  - type: Resource
    resource:
      name: memory
      target:
        type: Utilization
        averageUtilization: 80

6. 监控与可观测性

6.1 监控配置

集成 Prometheus 可以方便地采集指标。

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: tf-serving-monitor
  namespace: monitoring
spec:
  selector:
    matchLabels:
      app: tf-serving
  endpoints:
  - port: 8501
    path: /v1/monitoring/prometheus
    interval: 15s

6.2 日志管理

合理设置日志级别，避免磁盘爆满，同时保留关键调试信息。

apiVersion: apps/v1
kind: Deployment
metadata:
  name: tf-serving
  namespace: default
spec:
  # ...省略部分字段...
  template:
    spec:
      containers:
      - name: tf-serving
        image: tensorflow/serving:latest
        env:
        - name: TF_CPP_MIN_LOG_LEVEL
          value: "0"
        - name: TF_ENABLE_GPU_GARBAGE_COLLECTION
          value: "true"
        args:
        - --model_name=mnist
        - --model_base_path=/models/mnist
        - --enable_batching=true
        - --batching_parameters_file=/models/batching_parameters.txt

7. 安全最佳实践

7.1 模型安全

模型加密：保护静态模型文件不被窃取。
访问控制：利用 RBAC 限制谁可以调用服务。
版本管理：记录模型变更历史，便于回滚。

7.2 网络安全

通过 NetworkPolicy 限制 Pod 间的通信，只允许必要的流量通过。

apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: ai-inference-network-policy
  namespace: default
spec:
  podSelector:
    matchLabels:
      app: tf-serving
  policyTypes:
  - Ingress
  - Egress
  ingress:
  - from:
    - podSelector:
        matchLabels:
          app: api-gateway
    ports:
    - protocol: TCP
      port: 8501
  egress:
  - to:
    - podSelector:
        matchLabels:
          app: monitoring
    ports:
    - protocol: TCP
      port: 9090

8. 实际应用场景

8.1 多模型部署

Triton 支持在一个实例中加载多个模型，节省资源。

apiVersion: apps/v1
kind: Deployment
metadata:
  name: triton-multi-model
  namespace: default
spec:
  replicas: 2
  selector:
    matchLabels:
      app: triton-multi-model
  template:
    metadata:
      labels:
        app: triton-multi-model
    spec:
      containers:
      - name: triton-server
        image: nvcr.io/nvidia/tritonserver:23.08-py3
        ports:
        - containerPort: 8000
        - containerPort: 8001
        - containerPort: 8002
        resources:
          limits:
            nvidia.com/gpu: 1
          requests:
            nvidia.com/gpu: 1
        volumeMounts:
        - name: model-volume
          mountPath: /models
      volumes:
      - name: model-volume
        persistentVolumeClaim:
          claimName: models-pvc

8.2 A/B 测试

利用 Ingress 的 Canary 特性进行灰度发布。

apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: ai-inference-ingress
  namespace: default
  annotations:
    nginx.ingress.kubernetes.io/canary: "true"
    nginx.ingress.kubernetes.io/canary-weight: "20"
spec:
  rules:
  - host: inference.example.com
    http:
      paths:
      - path: /v1/models
        pathType: Prefix
        backend:
          service:
            name: tf-serving-v2
            port:
              number: 8501

9. 故障排查

9.1 常见问题解决

遇到服务不可用或性能下降时，先检查底层资源。

# 查看 GPU 使用情况
kubectl exec -it <pod-name> -- nvidia-smi

# 查看推理服务日志
kubectl logs -l app=tf-serving

# 检查模型状态
curl http://<service-ip>:8501/v1/models/mnist

# 测试推理服务
curl -d '{"instances": [[[0.0 for _ in range(28)] for _ in range(28)]]}' -X POST http://<service-ip>:8501/v1/models/mnist:predict

9.2 调试技巧

启用详细日志：设置 TF_CPP_MIN_LOG_LEVEL=0 获取更多信息。
使用 GPU 分析工具：配合 nvidia-smi 和 nvprof 定位瓶颈。
检查网络连接：确保服务端口未被防火墙拦截。
验证模型格式：确认输入数据形状与模型定义一致。

10. 总结

Kubernetes 为 AI 推理提供了弹性的基础设施。关键在于合理配置 GPU 资源、选择匹配的推理框架、实施性能优化策略，并建立完善的监控与安全体系。遵循这些实践，能够构建出既高效又可靠的 AI 服务架构。