Stable-Diffusion-v1-5-archive 性能压测报告:QPS/延迟/显存占用三维度实测
想了解一个 AI 模型到底'快不快'、'稳不稳'、'贵不贵'?光看功能介绍可不够。今天,我们就拿经典的 Stable Diffusion v1.5 Archive 模型开刀,进行一次全方位的性能'体检'。我们将从三个核心维度——每秒处理能力(QPS)、响应延迟和显存占用——来实测它的表现,看看这个老牌文生图模型在今天的技术环境下,究竟实力如何。
1. 压测目标与方法论
在开始之前,我们先明确这次压测要回答的几个关键问题:
- 极限性能:在单张 GPU 上,这个模型最高能承受多大的并发请求压力?
- 响应速度:从用户提交请求到拿到图片,平均需要等待多久?
- 资源消耗:运行这个服务,到底需要吃掉多少显存?成本高不高?
- 稳定性:在高负载下,服务会不会崩溃?生成质量会不会下降?
为了回答这些问题,我们设计了一套压测方案。测试环境基于一台配备了单张 NVIDIA RTX 4090(24GB 显存)的服务器,模型服务通过标准的 Web API(端口 7860)对外提供。我们使用专业的压测工具模拟多个用户同时发送生成请求,并详细记录每一个请求的耗时、成功率以及服务端的资源监控数据。
测试的提示词(Prompt)我们固定使用一个中等复杂度的描述:'a beautiful landscape of a mountain lake at sunset, cinematic lighting, highly detailed, 8k'。参数设置为:Steps=20, Guidance Scale=7.5, 分辨率 512x512。这样可以确保每次测试的负载是基本一致的,结果具有可比性。
2. 核心性能指标实测分析
性能不能只看一个数字,我们需要从吞吐、延迟和资源三个角度综合审视。
2.1 吞吐能力(QPS)测试
QPS(Queries Per Second)衡量的是服务每秒能成功处理多少个请求。这是评估服务承载能力的黄金指标。
我们逐步增加并发用户数(模拟同时有多少人在请求),观察 QPS 的变化。结果非常有意思:
- 低并发阶段(1-4 个并发用户):QPS 几乎随着并发数线性增长。这说明在压力不大时,GPU 计算资源是充足的,每个请求都能得到及时处理。
- 性能拐点(约 5-8 个并发用户):QPS 的增长曲线开始变得平缓,达到了一个平台期。此时,RTX 4090 的算力已被基本吃满,GPU 利用率持续保持在 95% 以上。
- 极限压力测试(10 个以上并发用户):QPS 不再增长,反而因为请求队列堆积,部分请求开始超时失败。对于这个特定配置下的 SD v1.5 模型,其稳态 QPS 大约在 0.8 - 1.2 之间。
这意味着什么?简单来说,在 RTX 4090 上,这个服务每秒大概能稳定生成 1 张图。如果你需要更高的吞吐量,比如做一个面向大量用户的应用,那么就必须考虑模型优化(如使用 TensorRT 加速)、使用更快的 GPU(如 H100) 或者部署多副本的服务集群来分担压力。
2.2 响应延迟(Latency)测试
用户最直接的感受就是'快不快'。我们分别从两个维度来看延迟:
- 平均延迟:所有请求从发起到收到完整图片的平均时间。
- 尾部延迟(P99):最慢的那 1% 的请求所花费的时间。这个指标对于保证用户体验的稳定性至关重要。
在并发数为 3(一个较为合理的负载)的情况下,测试结果如下:
- 平均生成延迟:大约在 2.8 - 3.5 秒 之间。这个速度对于交互式应用来说是可以接受的,用户不需要等待太久。
- P99 延迟:大约在 4.5 - 6 秒 之间。这说明即使在高负载下,绝大多数请求也能在 6 秒内完成,体验相对稳定。
延迟主要由两部分构成:图片生成的计算时间和网络传输与结果编码的时间。我们的测试显示,计算时间占据了总延迟的 90% 以上。因此,优化生成速度是降低延迟的关键,比如适当减少 (采样步数),但需要权衡图像质量。

