Retinaface+CurricularFace 人脸识别服务 Kubernetes StatefulSet 部署实战 | 极客日志

PythonAI算法

Retinaface+CurricularFace 人脸识别服务 Kubernetes StatefulSet 部署实战

Retinaface+CurricularFace 人脸识别模型在 Kubernetes 上部署面临状态持久化与网络标识稳定性的挑战。通过 StatefulSet 替代 Deployment，可确保 Pod 拥有固定 DNS 名称及独立 PVC 存储，避免重启导致的数据丢失。方案涵盖环境配置、GPU 资源调度、探针设置及服务暴露，并包含生产级优化如自动扩缩容与监控集成。该实践适用于高可用、可扩展的人脸识别服务集群搭建。

嘘发布于 2026/4/5更新于 2026/7/632 浏览

Retinaface+CurricularFace 人脸识别服务 Kubernetes StatefulSet 部署实战

在将 Retinaface+CurricularFace 等人脸识别模型部署到线上服务时，单机部署往往难以应对流量压力，而普通的 Kubernetes Deployment 又可能因 Pod 重启导致状态丢失。针对这类有状态服务，Kubernetes 的 StatefulSet 提供了更稳定的网络标识和持久化存储方案。

为什么选择 StatefulSet 部署人脸识别服务？

人脸识别模型服务通常具备以下特点：

模型文件大：Retinaface 和 CurricularFace 模型文件合计数百 MB
加载时间长：初始化耗时，频繁重启影响可用性
需要持久化存储：日志、临时缓存需独立保存
服务发现需稳定：实例需固定网络标识

普通 Deployment 每次重启 Pod 可能被调度至不同节点，导致存储丢失和网络名称变更。StatefulSet 则通过以下特性解决这些问题：

稳定的网络标识：Pod 名称固定（如 face-recognition-0）
有序的部署和扩展：按顺序创建、删除，避免脑裂
持久化存储：每个 Pod 绑定独立 PVC
优雅的滚动更新：支持金丝雀发布等策略

StatefulSet 与 Deployment 的核心区别如下：

graph TD A[人脸识别服务需求] --> B{选择部署方式}
B --> C[Deployment]
B --> D[StatefulSet]
C --> C1[无状态服务]
C --> C2[Pod 名称随机]
C --> C3[存储随 Pod 删除]
C --> C4[适合 Web 前端]
D --> D1[有状态服务]
D --> D2[Pod 名称固定]
D --> D3[存储持久化]
D --> D4[适合数据库/模型服务]
E[Retinaface+CurricularFace] --> F[模型文件大]
E --> G[加载时间长]
E --> H[需要持久存储]
F --> D
G --> D
H --> D

环境准备与镜像说明

镜像环境配置

使用的镜像已预置完整推理环境，基础配置如下：

# 镜像环境概览
基础镜像：Ubuntu 20.04
Python 版本：3.11.14
深度学习框架：PyTorch 2.5.0 + CUDA 12.1
人脸识别算法：RetinaFace（检测） + CurricularFace（识别）
工作目录：/root/Retinaface_CurricularFace

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 1. 拉取镜像
docker pull your-registry/retinaface-curricularface:latest

# 2. 运行容器并进入
docker run -it --gpus all your-registry/retinaface-curricularface:latest bash

# 3. 激活环境并测试
cd /root/Retinaface_CurricularFace
conda activate torch25
python inference_face.py

检测到人脸，开始特征提取...
图片 1 特征维度：512
图片 2 特征维度：512
相似度得分：0.856
判定结果：同一人

# 1-namespace.yaml
apiVersion: v1
kind: Namespace
metadata:
  name: face-recognition
  labels:
    name: face-recognition

# 2-storageclass.yaml
apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
  name: fast-ssd
provisioner: kubernetes.io/gce-pd
parameters:
  type: pd-ssd
  replication-type: none
---
# 3-pvc.yaml
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: face-model-pvc
  namespace: face-recognition
spec:
  accessModes:
    - ReadWriteOnce
  storageClassName: fast-ssd
  resources:
    requests:
      storage: 10Gi

# 4-statefulset.yaml
apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: face-recognition
  namespace: face-recognition
  labels:
    app: face-recognition
spec:
  serviceName: "face-recognition-service"
  replicas: 3
  selector:
    matchLabels:
      app: face-recognition
  template:
    metadata:
      labels:
        app: face-recognition
    spec:
      nodeSelector:
        accelerator: nvidia-tesla-t4
      containers:
        - name: face-recognition-container
          image: your-registry/retinaface-curricularface:latest
          imagePullPolicy: Always
          resources:
            limits:
              nvidia.com/gpu: 1
              memory: "8Gi"
              cpu: "4"
            requests:
              nvidia.com/gpu: 1
              memory: "4Gi"
              cpu: "2"
          env:
            - name: MODEL_DIR
              value: "/models"
            - name: LOG_LEVEL
              value: "INFO"
          ports:
            - containerPort: 8000
              name: http
              protocol: TCP
          command: ["/bin/bash", "-c"]
          args:
            - |
              source /root/miniconda3/bin/activate torch25
              if [ ! -f /data/models/retinaface.pth ]; then
                echo "复制模型文件到持久化存储..."
                cp -r /root/Retinaface_CurricularFace/models/* /data/models/
              fi
              cd /root/Retinaface_CurricularFace
              python http_server.py --port 8000 --model-dir /data/models
          livenessProbe:
            httpGet:
              path: /health
              port: 8000
            initialDelaySeconds: 60
            periodSeconds: 30
            timeoutSeconds: 10
            failureThreshold: 3
          readinessProbe:
            httpGet:
              path: /ready
              port: 8000
            initialDelaySeconds: 90
            periodSeconds: 20
            timeoutSeconds: 5
          volumeMounts:
            - name: model-storage
              mountPath: /data/models
              readOnly: false
            - name: log-storage
              mountPath: /var/log/face-recognition
              readOnly: false
      volumeClaimTemplates:
        - metadata:
            name: model-storage
          spec:
            accessModes: ["ReadWriteOnce"]
            storageClassName: "fast-ssd"
            resources:
              requests:
                storage: 10Gi
        - metadata:
            name: log-storage
          spec:
            accessModes: ["ReadWriteOnce"]
            storageClassName: "fast-ssd"
            resources:
              requests:
                storage: 5Gi

# 5-service.yaml
apiVersion: v1
kind: Service
metadata:
  name: face-recognition-service
  namespace: face-recognition
spec:
  clusterIP: None
  selector:
    app: face-recognition
  ports:
    - port: 8000
      targetPort: 8000
      name: http
---
# 6-ingress.yaml
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: face-recognition-ingress
  namespace: face-recognition
  annotations:
    nginx.ingress.kubernetes.io/ssl-redirect: "true"
    nginx.ingress.kubernetes.io/proxy-body-size: "10m"
spec:
  ingressClassName: nginx
  rules:
    - host: face-recognition.your-domain.com
      http:
        paths:
          - path: /
            pathType: Prefix
            backend:
              service:
                name: face-recognition-service
                port:
                  number: 8000

kubectl apply -f 1-namespace.yaml
kubectl apply -f 2-storageclass.yaml
kubectl apply -f 3-pvc.yaml
kubectl apply -f 4-statefulset.yaml
kubectl apply -f 5-service.yaml
kubectl apply -f 6-ingress.yaml

kubectl get statefulset -n face-recognition
kubectl get pods -n face-recognition -l app=face-recognition
kubectl get pvc -n face-recognition
kubectl get svc -n face-recognition
kubectl logs -f face-recognition-0 -n face-recognition

# 端口转发测试
kubectl port-forward face-recognition-0 8000:8000 -n face-recognition
curl http://localhost:8000/health

# Pod 内部测试
kubectl exec -it face-recognition-0 -n face-recognition -- bash
cd /root/Retinaface_CurricularFace
conda activate torch25
python inference_face.py

containers:
  - name: face-recognition-container
    lifecycle:
      postStart:
        exec:
          command: ["/bin/bash", "-c", "python /root/Retinaface_CurricularFace/warmup.py"]
    securityContext:
      capabilities:
        add: ["IPC_LOCK"]
      privileged: false
      readOnlyRootFilesystem: true
    resources:
      limits:
        nvidia.com/gpu: 1
        memory: "12Gi"
        cpu: "6"
        ephemeral-storage: "20Gi"
      requests:
        nvidia.com/gpu: 1
        memory: "8Gi"
        cpu: "4"
        ephemeral-storage: "10Gi"

# 7-monitoring.yaml
apiVersion: v1
kind: ConfigMap
metadata:
  name: face-recognition-metrics
  namespace: face-recognition
data:
  prometheus-scrape.yaml: |
    - job_name: 'face-recognition'
      scrape_interval: 30s
      static_configs:
        - targets:
            - 'face-recognition-0.face-recognition-service.face-recognition.svc.cluster.local:8000'
            - 'face-recognition-1.face-recognition-service.face-recognition.svc.cluster.local:8000'
            - 'face-recognition-2.face-recognition-service.face-recognition.svc.cluster.local:8000'
      metrics_path: '/metrics'

# 8-hpa.yaml
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: face-recognition-hpa
  namespace: face-recognition
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: StatefulSet
    name: face-recognition
  minReplicas: 2
  maxReplicas: 10
  metrics:
    - type: Resource
      resource:
        name: cpu
        target:
          type: Utilization
          averageUtilization: 70
    - type: Resource
      resource:
        name: memory
        target:
          type: Utilization
          averageUtilization: 80
  behavior:
    scaleDown:
      stabilizationWindowSeconds: 300
      policies:
        - type: Percent
          value: 10
          periodSeconds: 60

Retinaface+CurricularFace 人脸识别服务 Kubernetes StatefulSet 部署实战

Retinaface+CurricularFace 人脸识别服务 Kubernetes StatefulSet 部署实战

为什么选择 StatefulSet 部署人脸识别服务？

环境准备与镜像说明

镜像环境配置

更多推荐文章

相关免费在线工具

本地测试验证

Kubernetes StatefulSet 部署配置

创建命名空间和存储

StatefulSet 核心配置

服务暴露配置

部署与验证

执行部署

验证部署状态

功能测试

生产环境优化建议

性能优化配置

监控与日志收集

自动扩缩容配置

常见问题与解决方案

GPU 相关问题

存储相关问题

服务发现问题

性能优化问题

总结与最佳实践

更多推荐文章

相关免费在线工具

Retinaface+CurricularFace 人脸识别服务 Kubernetes StatefulSet 部署实战

Retinaface+CurricularFace 人脸识别服务 Kubernetes StatefulSet 部署实战

为什么选择 StatefulSet 部署人脸识别服务？

环境准备与镜像说明

镜像环境配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

本地测试验证

Kubernetes StatefulSet 部署配置

创建命名空间和存储

StatefulSet 核心配置

服务暴露配置

部署与验证

执行部署

验证部署状态

功能测试

生产环境优化建议

性能优化配置

监控与日志收集

自动扩缩容配置

常见问题与解决方案

GPU 相关问题

存储相关问题

服务发现问题

性能优化问题

总结与最佳实践

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具