Kubernetes与AI推理服务最佳实践 | 极客日志

Python

Kubernetes与AI推理服务最佳实践

Kubernetes与AI推理服务最佳实践 1\. AI推理服务核心概念 1.1 什么是AI推理服务 AI推理服务是指将训练好的AI模型部署为可访问的服务，用于实时或批量处理推理请求。在Kubernetes环境中，AI推理服务需要考虑资源管理、性能优化和高可用性。 1.2 常见的AI推理框架 **TensorFlow Serving**：Google开源的机器学习模型服务框架 **TorchSer…

松间照月发布于 2026/4/6更新于 2026/7/2494K 浏览

Kubernetes与AI推理服务最佳实践

1. AI推理服务核心概念

1.1 什么是AI推理服务

AI推理服务是指将训练好的AI模型部署为可访问的服务，用于实时或批量处理推理请求。在Kubernetes环境中，AI推理服务需要考虑资源管理、性能优化和高可用性。

1.2 常见的AI推理框架

TensorFlow Serving：Google开源的机器学习模型服务框架
TorchServe：PyTorch官方的模型服务框架
ONNX Runtime：微软开源的跨平台推理引擎
Triton Inference Server：NVIDIA开源的高性能推理服务器

2. GPU资源管理

2.1 安装GPU驱动和NVIDIA Device Plugin

# 安装NVIDIA驱动（在节点上执行） apt-get install -y nvidia-driver-535 # 安装NVIDIA Device Plugin kubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.14.0/nvidia-device-plugin.yml # 验证GPU资源 kubectl get nodes -o jsonpath='{range .items[*]}{.metadata.name}{"\t":.status.capacity.nvidia\.com/gpu}{"\n"}{end}'

2.2 GPU资源分配

部署使用GPU的推理服务

apiVersion: apps/v1 kind: Deployment metadata: name: tensorflow-serving namespace: default spec: replicas: 2 selector: matchLabels: app: tensorflow-serving template: metadata: labels: app: tensorflow-serving spec: containers: - name: tensorflow-serving image: tensorflow/serving:latest ports: - containerPort: 8501 resources: limits: nvidia.com/gpu: 1 requests: nvidia.com/gpu: 1 volumeMounts: - name: model-volume mountPath: /models volumes: - name: model-volume persistentVolumeClaim: claimName: model-pvc

3. TensorFlow Serving部署

3.1 准备模型

# 下载示例模型 mkdir -p models/mnist/1 wget -O models/mnist/1/saved_model.pb https://storage.googleapis.com/download.tensorflow.org/models/official/20181001_resnet/savedmodels/resnet_v2_fp32_savedmodel_NHWC_jpg.tar.gz # 创建模型存储 kubectl create -f - <<EOF apiVersion: v1 kind: PersistentVolumeClaim metadata: name: model-pvc namespace: default spec: accessModes: - ReadWriteOnce resources: requests: storage: 10Gi EOF

3.2 部署TensorFlow Serving

deployment.yaml

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

apiVersion: apps/v1 kind: Deployment metadata: name: tf-serving namespace: default spec: replicas: 2 selector: matchLabels: app: tf-serving template: metadata: labels: app: tf-serving spec: containers: - name: tf-serving image: tensorflow/serving:latest ports: - containerPort: 8500 - containerPort: 8501 env: - name: MODEL_NAME value: mnist volumeMounts: - name: model-volume mountPath: /models volumes: - name: model-volume persistentVolumeClaim: claimName: model-pvc

apiVersion: v1 kind: Service metadata: name: tf-serving namespace: default spec: selector: app: tf-serving ports: - port: 8501 targetPort: 8501 type: LoadBalancer

# 部署服务 kubectl apply -f deployment.yaml kubectl apply -f service.yaml # 测试推理服务 MODEL_SERVICE=$(kubectl get svc tf-serving -o jsonpath='{.status.loadBalancer.ingress[0].ip}') curl -d '{"instances": [[[0.0 for _ in range(28)] for _ in range(28)]]}' -X POST http://$MODEL_SERVICE:8501/v1/models/mnist:predict

apiVersion: apps/v1 kind: Deployment metadata: name: triton-server namespace: default spec: replicas: 2 selector: matchLabels: app: triton-server template: metadata: labels: app: triton-server spec: containers: - name: triton-server image: nvcr.io/nvidia/tritonserver:23.08-py3 ports: - containerPort: 8000 - containerPort: 8001 - containerPort: 8002 resources: limits: nvidia.com/gpu: 1 requests: nvidia.com/gpu: 1 volumeMounts: - name: model-volume mountPath: /models volumes: - name: model-volume persistentVolumeClaim: claimName: model-pvc

apiVersion: v1 kind: Service metadata: name: triton-server namespace: default spec: selector: app: triton-server ports: - port: 8000 targetPort: 8000 - port: 8001 targetPort: 8001 - port: 8002 targetPort: 8002 type: LoadBalancer

# 部署服务 kubectl apply -f deployment.yaml kubectl apply -f service.yaml # 检查服务状态 kubectl get pods -l app=triton-server

apiVersion: apps/v1 kind: Deployment metadata: name: tf-serving-batched namespace: default spec: replicas: 2 selector: matchLabels: app: tf-serving-batched template: metadata: labels: app: tf-serving-batched spec: containers: - name: tf-serving image: tensorflow/serving:latest ports: - containerPort: 8501 env: - name: MODEL_NAME value: mnist - name: TF_FORCE_GPU_ALLOW_GROWTH value: "true" - name: BATCH_SIZE value: "32" resources: limits: nvidia.com/gpu: 1 requests: nvidia.com/gpu: 1

apiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: name: tf-serving-hpa namespace: default spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: tf-serving minReplicas: 2 maxReplicas: 10 metrics: - type: Resource resource: name: cpu target: type: Utilization averageUtilization: 70 - type: Resource resource: name: memory target: type: Utilization averageUtilization: 80

apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: name: tf-serving-monitor namespace: monitoring spec: selector: matchLabels: app: tf-serving endpoints: - port: 8501 path: /v1/monitoring/prometheus interval: 15s

apiVersion: apps/v1 kind: Deployment metadata: name: tf-serving namespace: default spec: # ... template: spec: containers: - name: tf-serving image: tensorflow/serving:latest # ... env: - name: TF_CPP_MIN_LOG_LEVEL value: "0" - name: TF_ENABLE_GPU_GARBAGE_COLLECTION value: "true" args: - --model_name=mnist - --model_base_path=/models/mnist - --enable_batching=true - --batching_parameters_file=/models/batching_parameters.txt

apiVersion: networking.k8s.io/v1 kind: NetworkPolicy metadata: name: ai-inference-network-policy namespace: default spec: podSelector: matchLabels: app: tf-serving policyTypes: - Ingress - Egress ingress: - from: - podSelector: matchLabels: app: api-gateway ports: - protocol: TCP port: 8501 egress: - to: - podSelector: matchLabels: app: monitoring ports: - protocol: TCP port: 9090

apiVersion: apps/v1 kind: Deployment metadata: name: triton-multi-model namespace: default spec: replicas: 2 selector: matchLabels: app: triton-multi-model template: metadata: labels: app: triton-multi-model spec: containers: - name: triton-server image: nvcr.io/nvidia/tritonserver:23.08-py3 ports: - containerPort: 8000 - containerPort: 8001 - containerPort: 8002 resources: limits: nvidia.com/gpu: 1 requests: nvidia.com/gpu: 1 volumeMounts: - name: model-volume mountPath: /models volumes: - name: model-volume persistentVolumeClaim: claimName: models-pvc

apiVersion: networking.k8s.io/v1 kind: Ingress metadata: name: ai-inference-ingress namespace: default annotations: nginx.ingress.kubernetes.io/canary: "true" nginx.ingress.kubernetes.io/canary-weight: "20" spec: rules: - host: inference.example.com http: paths: - path: /v1/models pathType: Prefix backend: service: name: tf-serving-v2 port: number: 8501

# 查看GPU使用情况 kubectl exec -it <pod-name> -- nvidia-smi # 查看推理服务日志 kubectl logs -l app=tf-serving # 检查模型状态 curl http://<service-ip>:8501/v1/models/mnist # 测试推理服务 curl -d '{"instances": [[[0.0 for _ in range(28)] for _ in range(28)]]}' -X POST http://<service-ip>:8501/v1/models/mnist:predict

Kubernetes与AI推理服务最佳实践

Kubernetes与AI推理服务最佳实践

1. AI推理服务核心概念

1.1 什么是AI推理服务

1.2 常见的AI推理框架

2. GPU资源管理

2.1 安装GPU驱动和NVIDIA Device Plugin

2.2 GPU资源分配

3. TensorFlow Serving部署

3.1 准备模型

3.2 部署TensorFlow Serving

更多推荐文章

相关免费在线工具

4. Triton Inference Server部署

4.1 安装Triton Inference Server

5. 性能优化

5.1 模型优化

5.2 推理服务优化

5.3 自动缩放

6. 监控与可观测性

6.1 监控配置

6.2 日志管理

7. 安全最佳实践

7.1 模型安全

7.2 网络安全

8. 实际应用场景

8.1 多模型部署

8.2 A/B测试

9. 故障排查

9.1 常见问题解决

9.2 调试技巧

10. 总结

更多推荐文章

相关免费在线工具

Kubernetes与AI推理服务最佳实践

Kubernetes与AI推理服务最佳实践

1. AI推理服务核心概念

1.1 什么是AI推理服务

1.2 常见的AI推理框架

2. GPU资源管理

2.1 安装GPU驱动和NVIDIA Device Plugin

2.2 GPU资源分配

3. TensorFlow Serving部署

3.1 准备模型

3.2 部署TensorFlow Serving

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. Triton Inference Server部署

4.1 安装Triton Inference Server

5. 性能优化

5.1 模型优化

5.2 推理服务优化

5.3 自动缩放

6. 监控与可观测性

6.1 监控配置

6.2 日志管理

7. 安全最佳实践

7.1 模型安全

7.2 网络安全

8. 实际应用场景

8.1 多模型部署

8.2 A/B测试

9. 故障排查

9.1 常见问题解决

9.2 调试技巧

10. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具