Kubernetes与AI推理服务最佳实践

优质文章学习记录

08 Apr 2026 — 6 min read

Kubernetes与AI推理服务最佳实践

1. AI推理服务核心概念

1.1 什么是AI推理服务

AI推理服务是指将训练好的AI模型部署为可访问的服务，用于实时或批量处理推理请求。在Kubernetes环境中，AI推理服务需要考虑资源管理、性能优化和高可用性。

1.2 常见的AI推理框架

TensorFlow Serving：Google开源的机器学习模型服务框架
TorchServe：PyTorch官方的模型服务框架
ONNX Runtime：微软开源的跨平台推理引擎
Triton Inference Server：NVIDIA开源的高性能推理服务器

2. GPU资源管理

2.1 安装GPU驱动和NVIDIA Device Plugin

# 安装NVIDIA驱动（在节点上执行） apt-get install -y nvidia-driver-535 # 安装NVIDIA Device Plugin kubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.14.0/nvidia-device-plugin.yml # 验证GPU资源 kubectl get nodes -o jsonpath='{range .items[*]}{.metadata.name}{"\t":.status.capacity.nvidia\.com/gpu}{"\n"}{end}'

2.2 GPU资源分配

部署使用GPU的推理服务

apiVersion: apps/v1 kind: Deployment metadata: name: tensorflow-serving namespace: default spec: replicas: 2 selector: matchLabels: app: tensorflow-serving template: metadata: labels: app: tensorflow-serving spec: containers: - name: tensorflow-serving image: tensorflow/serving:latest ports: - containerPort: 8501 resources: limits: nvidia.com/gpu: 1 requests: nvidia.com/gpu: 1 volumeMounts: - name: model-volume mountPath: /models volumes: - name: model-volume persistentVolumeClaim: claimName: model-pvc

3. TensorFlow Serving部署

3.1 准备模型

# 下载示例模型 mkdir -p models/mnist/1 wget -O models/mnist/1/saved_model.pb https://storage.googleapis.com/download.tensorflow.org/models/official/20181001_resnet/savedmodels/resnet_v2_fp32_savedmodel_NHWC_jpg.tar.gz # 创建模型存储 kubectl create -f - <<EOF apiVersion: v1 kind: PersistentVolumeClaim metadata: name: model-pvc namespace: default spec: accessModes: - ReadWriteOnce resources: requests: storage: 10Gi EOF

3.2 部署TensorFlow Serving

deployment.yaml

apiVersion: apps/v1 kind: Deployment metadata: name: tf-serving namespace: default spec: replicas: 2 selector: matchLabels: app: tf-serving template: metadata: labels: app: tf-serving spec: containers: - name: tf-serving image: tensorflow/serving:latest ports: - containerPort: 8500 - containerPort: 8501 env: - name: MODEL_NAME value: mnist volumeMounts: - name: model-volume mountPath: /models volumes: - name: model-volume persistentVolumeClaim: claimName: model-pvc

service.yaml

apiVersion: v1 kind: Service metadata: name: tf-serving namespace: default spec: selector: app: tf-serving ports: - port: 8501 targetPort: 8501 type: LoadBalancer

# 部署服务 kubectl apply -f deployment.yaml kubectl apply -f service.yaml # 测试推理服务 MODEL_SERVICE=$(kubectl get svc tf-serving -o jsonpath='{.status.loadBalancer.ingress[0].ip}') curl -d '{"instances": [[[0.0 for _ in range(28)] for _ in range(28)]]}' -X POST http://$MODEL_SERVICE:8501/v1/models/mnist:predict

4. Triton Inference Server部署

4.1 安装Triton Inference Server

deployment.yaml

apiVersion: apps/v1 kind: Deployment metadata: name: triton-server namespace: default spec: replicas: 2 selector: matchLabels: app: triton-server template: metadata: labels: app: triton-server spec: containers: - name: triton-server image: nvcr.io/nvidia/tritonserver:23.08-py3 ports: - containerPort: 8000 - containerPort: 8001 - containerPort: 8002 resources: limits: nvidia.com/gpu: 1 requests: nvidia.com/gpu: 1 volumeMounts: - name: model-volume mountPath: /models volumes: - name: model-volume persistentVolumeClaim: claimName: model-pvc

service.yaml

apiVersion: v1 kind: Service metadata: name: triton-server namespace: default spec: selector: app: triton-server ports: - port: 8000 targetPort: 8000 - port: 8001 targetPort: 8001 - port: 8002 targetPort: 8002 type: LoadBalancer

# 部署服务 kubectl apply -f deployment.yaml kubectl apply -f service.yaml # 检查服务状态 kubectl get pods -l app=triton-server

5. 性能优化

5.1 模型优化

模型量化：将模型从FP32量化为INT8或FP16
模型剪枝：移除冗余的神经元和连接
模型蒸馏：使用大模型训练小模型

5.2 推理服务优化

配置批处理

apiVersion: apps/v1 kind: Deployment metadata: name: tf-serving-batched namespace: default spec: replicas: 2 selector: matchLabels: app: tf-serving-batched template: metadata: labels: app: tf-serving-batched spec: containers: - name: tf-serving image: tensorflow/serving:latest ports: - containerPort: 8501 env: - name: MODEL_NAME value: mnist - name: TF_FORCE_GPU_ALLOW_GROWTH value: "true" - name: BATCH_SIZE value: "32" resources: limits: nvidia.com/gpu: 1 requests: nvidia.com/gpu: 1

5.3 自动缩放

HPA配置

apiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: name: tf-serving-hpa namespace: default spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: tf-serving minReplicas: 2 maxReplicas: 10 metrics: - type: Resource resource: name: cpu target: type: Utilization averageUtilization: 70 - type: Resource resource: name: memory target: type: Utilization averageUtilization: 80

6. 监控与可观测性

6.1 监控配置

Prometheus配置

apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: name: tf-serving-monitor namespace: monitoring spec: selector: matchLabels: app: tf-serving endpoints: - port: 8501 path: /v1/monitoring/prometheus interval: 15s

6.2 日志管理

日志配置

apiVersion: apps/v1 kind: Deployment metadata: name: tf-serving namespace: default spec: # ... template: spec: containers: - name: tf-serving image: tensorflow/serving:latest # ... env: - name: TF_CPP_MIN_LOG_LEVEL value: "0" - name: TF_ENABLE_GPU_GARBAGE_COLLECTION value: "true" args: - --model_name=mnist - --model_base_path=/models/mnist - --enable_batching=true - --batching_parameters_file=/models/batching_parameters.txt

7. 安全最佳实践

7.1 模型安全

模型加密：使用加密技术保护模型文件
访问控制：使用RBAC限制模型访问
模型版本管理：追踪模型版本和变更

7.2 网络安全

网络策略

apiVersion: networking.k8s.io/v1 kind: NetworkPolicy metadata: name: ai-inference-network-policy namespace: default spec: podSelector: matchLabels: app: tf-serving policyTypes: - Ingress - Egress ingress: - from: - podSelector: matchLabels: app: api-gateway ports: - protocol: TCP port: 8501 egress: - to: - podSelector: matchLabels: app: monitoring ports: - protocol: TCP port: 9090

8. 实际应用场景

8.1 多模型部署

多模型配置

apiVersion: apps/v1 kind: Deployment metadata: name: triton-multi-model namespace: default spec: replicas: 2 selector: matchLabels: app: triton-multi-model template: metadata: labels: app: triton-multi-model spec: containers: - name: triton-server image: nvcr.io/nvidia/tritonserver:23.08-py3 ports: - containerPort: 8000 - containerPort: 8001 - containerPort: 8002 resources: limits: nvidia.com/gpu: 1 requests: nvidia.com/gpu: 1 volumeMounts: - name: model-volume mountPath: /models volumes: - name: model-volume persistentVolumeClaim: claimName: models-pvc

8.2 A/B测试

A/B测试配置

apiVersion: networking.k8s.io/v1 kind: Ingress metadata: name: ai-inference-ingress namespace: default annotations: nginx.ingress.kubernetes.io/canary: "true" nginx.ingress.kubernetes.io/canary-weight: "20" spec: rules: - host: inference.example.com http: paths: - path: /v1/models pathType: Prefix backend: service: name: tf-serving-v2 port: number: 8501

9. 故障排查

9.1 常见问题解决

# 查看GPU使用情况 kubectl exec -it <pod-name> -- nvidia-smi # 查看推理服务日志 kubectl logs -l app=tf-serving # 检查模型状态 curl http://<service-ip>:8501/v1/models/mnist # 测试推理服务 curl -d '{"instances": [[[0.0 for _ in range(28)] for _ in range(28)]]}' -X POST http://<service-ip>:8501/v1/models/mnist:predict

9.2 调试技巧

启用详细日志：设置TF_CPP_MIN_LOG_LEVEL=0
使用GPU分析工具：nvidia-smi、nvprof
检查网络连接：确保服务可以正常访问
验证模型格式：确保模型格式正确

10. 总结

Kubernetes为AI推理服务提供了强大的部署和管理能力。通过合理配置GPU资源、优化模型和服务参数，可以构建高性能、可靠的AI推理服务。

关键要点：

正确配置GPU资源管理
选择适合的推理框架
优化模型和服务性能
实施安全最佳实践
建立完善的监控和可观测性

通过以上最佳实践，可以充分发挥Kubernetes的优势，构建更加高效、可靠的AI推理服务。

【OpenClaw从入门到精通】第04篇：Web/TUI/钉钉全打通！OpenClaw多端交互实测指南（2026避坑版）

摘要：本文聚焦OpenClaw三大核心交互方式，针对新手“不知如何与AI助理沟通”的痛点，提供Web控制台、TUI终端、聊天软件（以钉钉为核心）的完整实操流程。Web控制台适配电脑端深度配置，TUI终端适合服务器远程维护，聊天软件满足手机端移动办公，三者协同实现“随时随地召唤AI”。文中包含2026实测的命令代码、配置步骤、问题排查方案，所有案例为虚拟构建，代码未上传GitHub，兼顾新手入门与进阶实操，帮助读者快速打通多端交互，最大化OpenClaw使用效率。优质专栏欢迎订阅！【DeepSeek深度应用】【Python高阶开发：AI自动化与数据工程实战】【YOLOv11工业级实战】【机器视觉：C# + HALCON】【大模型微调实战：平民级微调技术全解】【人工智能之深度学习】【AI 赋能：Python 人工智能应用实战】【数字孪生与仿真技术实战指南】【AI工程化落地与YOLOv8/v9实战】【C#工业上位机高级应用：高并发通信+性能优化】【Java生产级避坑指南：高并发+性能调优终极实战】【Coze搞钱实战：零代码打造吸金AI助手】

Git-RSCLIP智能相册开发：Vue前端+Node.js后端全栈实现

Git-RSCLIP智能相册开发：Vue前端+Node.js后端全栈实现你是不是也有过这样的经历？手机里存了几千张照片，想找一张“去年夏天在海边拍的、有红色遮阳伞和狗狗”的照片，结果翻了半小时也没找到。传统的相册应用只能按时间、地点或手动添加的标签来搜索，一旦标签没打好，照片就像石沉大海。现在，情况不一样了。想象一下，你只需要在搜索框里输入“红色汽车的照片”，或者“有彩虹的风景照”，系统就能瞬间从成千上万张照片中精准地找到它们。这听起来像是科幻电影里的场景，但今天，我们就要用Git-RSCLIP模型，结合Vue3和Node.js，亲手把它变成现实。这篇文章，我就带你一步步搭建一个基于自然语言搜索的智能相册系统。我们不用去理解复杂的深度学习算法，而是聚焦于如何将前沿的AI能力，通过一套清晰、可落地的全栈技术方案，变成一个真正能用的产品。无论你是前端开发者想了解如何接入AI能力，还是后端工程师想学习向量数据库的应用，都能在这里找到答案。 1. 为什么我们需要智能相册？在开始敲代码之前，我们先聊聊为什么传统的相册管理方式已经不够用了。我自己的手机里大概有8000多张照

卡证检测矫正模型开源可部署：ModelScope iic模型+Web UI全栈开源

卡证检测矫正模型开源可部署：ModelScope iic模型+Web UI全栈开源你是不是也遇到过这样的烦恼？财务报销时，需要上传身份证照片，但拍歪了，系统死活识别不出来；办理线上业务，上传的驾照照片有透视变形，审核总是失败。手动裁剪、旋转、矫正，费时费力，效果还不好。今天，我要介绍一个能彻底解决这个痛点的“神器”——一个基于ModelScope开源模型 iic/cv_resnet_carddetection_scrfd34gkps 构建的卡证检测与矫正全栈应用。它不仅能把图片里的身份证、护照、驾照等卡证“框”出来，还能精准定位四个角点，并一键输出“扶正”后的标准正视角图片。最关键的是，它自带一个中文Web界面，开箱即用，从模型到前端，全部开源可部署。无论你是开发者想集成这个功能，还是业务人员想快速处理大量卡证图片，这篇文章都将带你从零开始，完整了解并上手这个工具。 1. 它能做什么？解决什么实际问题？简单来说，

trae整合figma的mcp实现前端代码自动生成

1.现在trae版本在3.0及以上版本。 2.trae账号是企业版。 3.打开设置，找到mcp 这里需要token，需要从figma账号里生成,网页登录figma账号，找到设置，打开后找到security,然后点击generate new token，token名称随便取，权限都钩上。然后生成一个token,把token放到mcp中即可。 4.使用mcp,切换到mcp模式，你也可以自己创建智能体使用 5.提问使用，可参考下面的提示词使用注意：这里面的figma链接是mcp的链接，不是figma链接，一般需要你有原型的权限才能看到我需要根据提供的Figma链接生成一个与设计稿高度一致的网页。请严格遵循以下详细要求：