GPT-OSS-20B 多用户并发 WEBUI 压力测试 | 极客日志

PythonAI算法

GPT-OSS-20B 多用户并发 WEBUI 压力测试

对 GPT-OSS-20B 模型在 WebUI 环境下的多用户并发性能进行测试。基于双卡 4090D 硬件与 vLLM 加速框架，评估了不同并发数下的首字延迟、吞吐量及稳定性。测试表明，10 人以内并发体验流畅，20 人时延迟显著增加且出现错误。文章提供了 vLLM 参数调优、负载均衡架构及 Redis 缓存等提升并发能力的建议，为团队内部部署大模型推理服务提供参考。

苹果系统发布于 2026/4/6更新于 2026/7/2153 浏览

GPT-OSS-20B 多用户并发：WEBUI 压力测试案例

1. 引言

在多用户协作场景下，大模型推理服务的并发处理能力直接影响用户体验。本文基于 GPT-OSS-20B 模型配合 vLLM 加速框架，在双卡 4090D 硬件上进行了 WebUI 多用户并发压力测试，评估其在不同负载下的响应延迟、吞吐量及稳定性。

2. 环境准备与部署

2.1 硬件要求

运行 200 亿参数级别的大模型对显存要求较高，推荐配置如下：

组件	推荐配置
GPU	双卡 NVIDIA 4090D（支持 vGPU 虚拟化）
显存总量	≥ 48GB（单卡 24GB × 2）
内存	≥ 64GB DDR5
存储	≥ 1TB NVMe SSD

提示：若显存不足，建议选用更小尺寸模型版本（如 7B 或 13B），以避免 OOM 错误。

2.2 部署步骤

使用预置容器镜像进行快速部署，无需手动安装依赖：

获取镜像：从镜像仓库拉取 gpt-oss-20b-WEBUI 镜像。
启动服务：配置双卡算力资源，一键部署。镜像会自动拉取权重、初始化 vLLM 服务并启动 FastAPI 后端与 Gradio 前端。
访问界面：启动完成后通过实例 IP 访问 WebUI 页面。

3. 核心技术栈解析

3.1 vLLM 加速原理

vLLM 采用 PagedAttention 技术 管理 KV Cache，显著提升批处理效率和显存利用率。核心优势包括：

支持动态批处理（Dynamic Batching）
多用户请求自动合并
显存占用降低 30%~50%
首 token 延迟控制在 800ms 以内

3.2 OpenAI 兼容接口

模型 API 完全兼容 OpenAI 格式，可使用标准 Python 库调用：

import openai
openai.api_key = "EMPTY"
openai.base_url = "http://<your-instance-ip>:8000/v1/"
response = openai.chat.completions.create(
    model="gpt-oss-20b",
    messages=[{"role": "user", "content": "请写一段关于春天的短文"}],
    max_tokens=200
)
print(response.choices[0].message.content)

4. 压力测试方案

4.1 测试目标

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from locust import HttpUser, task, between
import json

class AIUser(HttpUser):
    wait_time = between(1, 3)

    @task
    def chat_completion(self):
        payload = {
            "model": "gpt-oss-20b",
            "messages": [{"role": "user", "content": "请简述量子计算的基本原理"}],
            "max_tokens": 150,
            "temperature": 0.7
        }
        headers = {"Content-Type": "application/json"}
        self.client.post("/chat/completions", data=json.dumps(payload), headers=headers)

locust -f locustfile.py --headless -u 10 -r 2 --run-time 5m

并发用户数	场景描述
1	单人基准性能
5	小组协作，轻度并发
10	团队共用，中等压力
20	高峰时段，极限挑战

并发用户数	平均首 token 延迟	平均总响应时间	RPS	错误率
1	620 ms	2.1 s	0.48	0%
5	710 ms	2.6 s	1.9	0%
10	890 ms	3.4 s	2.8	0%
20	1.32 s	5.7 s	3.1	6.2%

python -m vllm.entrypoints.openai.api_server \
--model gpt-oss-20b \
--tensor-parallel-size 2 \
--max-model-len 4096 \
--gpu-memory-utilization 0.9 \
--max-num-seqs 256

[客户端] -> [Nginx 负载均衡] -> [实例 A] [实例 B]

import hashlib
import redis

r = redis.Redis(host='localhost', port=6379, db=0)

def get_cache_key(prompt):
    return "qa:" + hashlib.md5(prompt.encode()).hexdigest()

def cached_generate(prompt):
    key = get_cache_key(prompt)
    if r.exists(key):
        return r.get(key).decode()
    result = call_vllm_api(prompt)
    r.setex(key, 3600, result)
    return result

GPT-OSS-20B 多用户并发 WEBUI 压力测试

GPT-OSS-20B 多用户并发：WEBUI 压力测试案例

1. 引言

2. 环境准备与部署

2.1 硬件要求

2.2 部署步骤

3. 核心技术栈解析

3.1 vLLM 加速原理

3.2 OpenAI 兼容接口

4. 压力测试方案

4.1 测试目标

更多推荐文章

相关免费在线工具

4.2 测试工具

测试脚本示例

4.3 测试场景

5. 测试结果分析

5.1 关键性能数据

5.2 实际体验

6. 提升并发能力的建议

6.1 调整 vLLM 参数

6.2 负载均衡扩展

6.3 缓存高频问答

7. 总结

更多推荐文章

相关免费在线工具

GPT-OSS-20B 多用户并发 WEBUI 压力测试

GPT-OSS-20B 多用户并发：WEBUI 压力测试案例

1. 引言

2. 环境准备与部署

2.1 硬件要求

2.2 部署步骤

3. 核心技术栈解析

3.1 vLLM 加速原理

3.2 OpenAI 兼容接口

4. 压力测试方案

4.1 测试目标

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4.2 测试工具

测试脚本示例

4.3 测试场景

5. 测试结果分析

5.1 关键性能数据

5.2 实际体验

6. 提升并发能力的建议

6.1 调整 vLLM 参数

6.2 负载均衡扩展

6.3 缓存高频问答

7. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具