Retinaface+CurricularFace部署教程：GPU利用率监控与batch size调优建议

优质文章学习记录

06 Apr 2026 — 11 min read

Retinaface+CurricularFace部署教程：GPU利用率监控与batch size调优建议

你是不是也遇到过这种情况：好不容易把一个人脸识别模型部署上线，结果发现GPU利用率低得可怜，大部分时间都在“摸鱼”？或者想提高处理速度，一调大batch size，程序就直接崩溃了？

今天，我们就以Retinaface+CurricularFace这个人脸识别组合为例，手把手带你解决这两个核心的部署优化问题。这不是一篇枯燥的参数说明书，而是一份从实际工程经验中提炼出的“避坑指南”和“调优手册”。我会告诉你如何监控GPU的真实工作状态，以及如何科学地找到那个“又快又稳”的batch size黄金值。

1. 环境准备与快速上手

在开始调优之前，我们得先把模型跑起来。这个镜像已经为我们准备好了所有环境，省去了大量配置时间。

1.1 激活推理环境

镜像启动后，第一件事就是进入工作目录并激活预置的Conda环境。这就像打开工具箱，准备干活。

# 进入工作目录 cd /root/Retinaface_CurricularFace # 激活预置的PyTorch环境 conda activate torch25

激活成功后，命令行提示符通常会发生变化，前面会显示(torch25)，表示你已经在这个环境中了。

1.2 运行你的第一次推理

环境好了，我们先跑个最简单的例子，确保一切正常。镜像里已经准备好了测试脚本和示例图片。

# 使用默认的示例图片进行人脸比对 python inference_face.py

运行后，你会看到终端输出一个相似度分数（比如0.85），以及一个判定结果（“同一人”或“不同人”）。同时，脚本可能会显示检测到的人脸框，让你直观地看到模型找到了谁。

试试自定义图片： 如果你想用自己的照片测试，也很简单，用--input1和--input2参数指定图片路径就行。建议使用绝对路径，避免找不到文件的尴尬。

python inference_face.py --input1 /你的路径/照片A.jpg --input2 /你的路径/照片B.jpg

看到结果正常输出，恭喜你，基础部署已经成功了！但这只是开始。接下来，我们要让它从“能跑”变得“跑得好、跑得快”。

2. 看懂GPU在干什么：利用率监控实战

模型跑起来后，GPU真的在全力工作吗？很多时候，我们以为程序在疯狂计算，实际上GPU可能在“等待”数据，利用率忽高忽低。学会监控，是调优的第一步。

2.1 命令行监控利器：nvidia-smi

最直接的工具就是英伟达自带的nvidia-smi。在终端输入这个命令，你会看到一个表格，包含了GPU的很多信息。

关键指标解读：
- Volatile GPU-Util（GPU利用率）：这个百分比最重要。它表示GPU内核（计算单元）在过去一段时间内的活跃程度。理想状态下，在持续推理时，这个值应该稳定在较高水平（如70%-100%）。如果它频繁在0%和100%之间跳动，说明计算是间断的，可能存在数据加载瓶颈。
- Memory-Usage（显存使用）：模型和数据会占用显存。你需要确保batch size调大后，显存不会爆掉（达到100%）。
- Power Draw（功耗）和 Temperature（温度）：辅助指标，可以看GPU是否在满负荷运行以及散热是否良好。

但是，nvidia-smi默认是静态快照。 要看到动态变化，我们需要用它的小弟：

# 每隔1秒刷新一次GPU状态 watch -n 1 nvidia-smi

这个命令会打开一个实时刷新的界面，你可以清晰地看到GPU利用率的波动情况。

2.2 进阶监控：更细致的性能分析

命令行工具看个大概还行，但要深入分析，特别是想看到每个PyTorch操作耗时，就需要更专业的工具。

使用PyTorch Profiler： PyTorch内置了一个性能分析器，可以记录每个函数、每个CUDA操作花了多少时间。我们在推理脚本里加上几行代码就能用。

下面是一个简单的示例，展示了如何包装你的推理代码进行性能分析：

import torch # 假设这是你推理循环的一部分 with torch.profiler.profile( activities=[ torch.profiler.ProfilerActivity.CPU, torch.profiler.ProfilerActivity.CUDA, # 记录CUDA活动 ], schedule=torch.profiler.schedule(wait=1, warmup=1, active=3, repeat=1), on_trace_ready=torch.profiler.tensorboard_trace_handler('./log'), record_shapes=True, profile_memory=True, ) as prof: for i, data in enumerate(dataloader): # 你的推理代码在这里 output = model(data) prof.step() # 告诉分析器这一步结束了

运行后，它会生成一个日志文件，可以用TensorBoard打开，你会看到一张非常详细的时间线图，哪个操作在CPU上耗时，哪个操作在GPU上计算，等待了多久，一目了然。这对于定位瓶颈（比如数据预处理太慢）极其有用。

简单判断法： 如果你暂时不想用Profiler，可以观察一个现象：如果GPU利用率很低，但你的CPU某个核心使用率很高，那很可能瓶颈在数据加载和预处理环节（比如图片解码、人脸检测），GPU在等CPU喂数据。

3. 找到最佳平衡点：batch size调优实战

Batch size（批处理大小）是影响推理速度和GPU利用率最关键的超参数之一。不是越大越好，我们需要找到那个“甜点”。

3.1 理解batch size的影响

增大batch size的好处：
- 更高的GPU利用率：一次处理更多数据，能更好地“喂饱”GPU强大的并行计算能力，减少内核启动开销，让利用率更平稳、更高。
- 更高的吞吐量：单位时间（每秒）能处理更多图片。
增大batch size的坏处：
- 更高的显存占用：所有图片的特征图都要存在显存里，batch size翻倍，显存占用也几乎翻倍。
- 更长的单批延迟：处理一批数据的总时间变长了（虽然平均到每张图的时间可能更短）。
- 可能触发OOM（内存溢出）：这是最直接的错误，程序会崩溃。

我们的目标就是：在显存不溢出的前提下，找到能让GPU利用率稳定在较高水平的最大batch size。

3.2 手把手调优步骤

这里提供一个系统性的调优方法，而不是盲目尝试。

第1步：基准测试 先用一个很小的batch size（比如1或2）跑一下，用nvidia-smi看看基础的显存占用是多少。这代表了模型本身和框架的开销。

第2步：编写一个简单的测试脚本 我们修改或新建一个脚本，用来测试不同batch size下的表现。关键是要模拟真实的数据流。

# test_batch_performance.py import torch import time from PIL import Image import torchvision.transforms as transforms # 这里需要导入你的模型加载和预处理函数 # from your_model import load_model, preprocess def test_batch_size(batch_size, num_tests=100): """ 测试特定batch size下的性能 Args: batch_size: 要测试的批大小 num_tests: 循环测试次数，取平均值 """ # 1. 加载模型 (假设已经加载到GPU) # model = load_model().cuda() # model.eval() # 2. 准备模拟数据 (这里用随机数据代替，实际应用应使用真实图片预处理) # 假设输入尺寸是 [3, 112, 112] dummy_input = torch.randn(batch_size, 3, 112, 112).cuda() # 3. Warm-up (让GPU预热，避免第一次运行速度慢影响结果) with torch.no_grad(): for _ in range(10): _ = model(dummy_input) # 4. 正式计时测试 torch.cuda.synchronize() # 确保CUDA操作完成 start_time = time.time() with torch.no_grad(): for _ in range(num_tests): _ = model(dummy_input) torch.cuda.synchronize() end_time = time.time() # 5. 计算指标 total_time = end_time - start_time latency_per_batch = total_time / num_tests # 每批的延迟（秒） throughput = (batch_size * num_tests) / total_time # 吞吐量（图片/秒） # 6. 检查显存 (峰值显存) peak_memory = torch.cuda.max_memory_allocated() / 1024**2 # 转换为MB print(f"Batch Size: {batch_size:3d} | " f"Latency per Batch: {latency_per_batch*1000:6.2f} ms | " f"Throughput: {throughput:7.2f} img/s | " f"Peak GPU Mem: {peak_memory:7.2f} MB") # 重置显存统计 torch.cuda.reset_peak_memory_stats() return latency_per_batch, throughput, peak_memory if __name__ == "__main__": # 测试一系列batch size batch_sizes_to_test = [1, 2, 4, 8, 16, 32, 64] print("开始性能测试...") print("Batch Size | Batch Latency (ms) | Throughput (img/s) | Peak Mem (MB)") print("-" * 70) results = {} for bs in batch_sizes_to_test: try: lat, thr, mem = test_batch_size(bs, num_tests=50) results[bs] = (lat, thr, mem) except RuntimeError as e: if "CUDA out of memory" in str(e): print(f"Batch Size {bs}: *** OOM (Out of Memory) ***") break else: raise e

第3步：分析结果并找到“甜点” 运行上面的脚本，你会得到一张表格。关注几个点：

吞吐量（Throughput）：随着batch size增大，这个值会增长，但增长会逐渐变慢，直到饱和。
每批延迟（Latency）：这个值会增大。对于实时性要求高的场景（如摄像头视频流），延迟不能太高。
峰值显存（Peak Mem）：确保它离你的GPU总显存还有一定安全余量（比如留出500MB-1GB给系统和框架）。

“甜点”通常出现在：吞吐量增长曲线开始明显变平缓的那个batch size附近。 比如，从8到16，吞吐量涨了50%；从16到32，只涨了10%。那么16可能就是很好的选择。

第4步：考虑实际场景

实时视频流：对延迟敏感，可能选择较小的batch size（如4, 8），虽然吞吐量不是最高，但响应快。
批量处理图片：对吞吐量敏感，可以选择接近“甜点”或稍大的batch size，一次性处理更多数据。
显存限制：如果“甜点”batch size导致显存占用超过90%，请适当调小，确保系统稳定。

4. 针对Retinaface+CurricularFace的特定建议

结合我们这个具体镜像，还有一些细节需要注意：

两阶段模型的特殊性：Retinaface（检测）和CurricularFace（识别）是串联的。Retinaface的人脸检测部分对batch size不敏感，因为它通常一张张检测。瓶颈和主要的计算/显存消耗在CurricularFace的特征提取部分。我们的测试脚本inference_face.py内部是串行处理两张图的，要测试批量性能，你需要自己写一个循环，将多张图片组成一个batch送入特征提取网络。
数据预处理开销：在批量处理时，图片解码、人脸检测和对齐（Retinaface完成）都在CPU上进行。如果这部分太慢，GPU就会空闲。可以考虑使用torchvision的DataLoader并设置num_workers（多进程）来加速数据加载，或者使用GPU加速的图像解码库（如nvJPEG，如果环境支持）。
阈值（--threshold）的调整：在调优batch size追求速度的同时，别忘了准确性。默认0.4的阈值在大多数情况下可用。但在批量处理不同质量图片时，你可能需要根据实际误识别率（FAR）和漏识别率（FRR）来微调这个阈值，在速度和准确率间取得平衡。

5. 总结

部署优化不是玄学，而是有章可循的工程实践。回顾一下今天的核心内容：

监控是调优的眼睛：学会使用nvidia-smi和PyTorch Profiler，看清GPU的真实负载和程序瓶颈所在。
batch size调优是核心：通过编写测试脚本，系统性地测量不同batch size下的延迟、吞吐量和显存占用，找到属于你硬件和数据的最优解。
结合实际场景：没有绝对的最优值，只有最适合你应用需求（实时性 vs 吞吐量）的平衡点。
关注端到端流水线：对于Retinaface+CurricularFace这类组合模型，注意CPU上的检测预处理可能成为瓶颈，需要整体优化。

希望这份教程能帮你把人脸识别模型部署得既快又稳。动手试试不同的batch size，观察GPU利用率的变化，你会有更直观的感受。优化之路永无止境，但每一步提升都会带来实实在在的效率收益。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 ZEEKLOG星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Retinaface+CurricularFace部署教程：GPU利用率监控与batch size调优建议

优质文章学习记录