gpt-oss-20b-WEBUI 本地部署与使用指南
本教程介绍如何从零开始部署 gpt-oss-20b 模型的 WebUI 版本,实现本地 AI 助手功能。
1. 部署前:3 个必须确认的关键点
部署前请核对以下前提条件:
1.1 显存要求
镜像文档通常标注微调最低要求,但纯推理使用(仅聊天、不训练)需求不同。建议配置如下:
- 双卡 RTX 4090D(每卡 24GB,合计 48GB VRAM)
- 或单卡 RTX 6000 Ada(48GB)
- 或 A100 40GB + 开启 vLLM 内存优化
不支持单卡 4090(24GB)、3090(24GB)、V100(32GB),这些卡在加载 20B 模型时可能因显存不足崩溃。
1.2 网络与端口
服务默认监听 0.0.0.0:7860 端口。需确保:
- 算力平台已分配公网 IP 或内网可访问地址
- 安全组/防火墙放行 7860 端口
- 浏览器未启用严格隐私模式
验证方法:部署完成后在控制台找到'服务地址',通常为 https://xxx.ai-platform.com:7860,复制粘贴进浏览器测试连接。
1.3 浏览器兼容性
WebUI 基于 Gradio 构建,对浏览器有特定要求:
- 推荐:Chrome 115+、Edge 115+、Firefox 110+
- 慎用:Safari(macOS 默认浏览器,常因 WebGL 兼容问题导致界面错位)
- 关闭:广告拦截插件(如 uBlock Origin),以免误杀前端资源请求
2. 三步完成部署:从镜像到可交互界面
2.1 第一步:找到并启动镜像
登录算力平台,进入'镜像市场'或'AI 应用广场'。搜索框输入:gpt-oss-20b-WEBUI。
点击'部署'按钮,配置窗口按以下设置填写:
| 配置项 | 填写内容 | 说明 |
|---|---|---|
| 实例名称 | my-gpt-oss-chat | 建议用英文,避免乱码 |
| GPU 型号 | RTX 4090D ×2 | 必须选双卡,单卡会失败 |
| 系统盘 | 100GB | 模型权重 + 缓存需约 65GB 空间 |
| 启动脚本 | 留空 | 镜像已内置完整启动逻辑 |
点击'确认部署',等待约 2–3 分钟。
2.2 第二步:等待服务就绪
状态变为'运行中'后,不要立刻点击'网页推理'。后台加载模型和初始化服务需要额外时间。
判断就绪的信号:
- 控制台日志出现:
INFO: Uvicorn running on http://0.0.0.0:7860 - '服务地址'列变为蓝色可点击状态
若超过 3 分钟无反应,刷新页面或重启实例。
2.3 第三步:打开网页,开始第一次对话
点击'服务地址'链接,浏览器将打开简洁的 WebUI 界面。
在输入框敲下:
你好,你是谁?
稍等 2–4 秒,预期回复:
我是 gpt-oss-20b,由 OpenAI 开源的高性能语言模型。我支持结构化输出、多轮对话、指令遵循,且完全离线运行。有什么我可以帮你的?

