Live VLM WebUI 实时视觉语言模型测试工具
Live VLM WebUI 是一款开源的 Web 界面工具,用于实时测试视觉语言模型(VLM)。它支持通过 WebRTC 将摄像头视频流传输至任意 VLM 后端,如 Ollama、vLLM 或 OpenAI API。工具提供 GPU/VRAM/CPU 实时监控、多平台兼容(PC、Jetson、Mac 等)及多种预设提示词功能。适用于机器人导航、工业质检、安防监控等边缘 AI 场景,帮助开发者快速评估模型性能与部署效果。

Live VLM WebUI 是一款开源的 Web 界面工具,用于实时测试视觉语言模型(VLM)。它支持通过 WebRTC 将摄像头视频流传输至任意 VLM 后端,如 Ollama、vLLM 或 OpenAI API。工具提供 GPU/VRAM/CPU 实时监控、多平台兼容(PC、Jetson、Mac 等)及多种预设提示词功能。适用于机器人导航、工业质检、安防监控等边缘 AI 场景,帮助开发者快速评估模型性能与部署效果。

随着 Vision Language Model(视觉语言模型,简称 VLM)的快速发展,越来越多的开源模型可以在本地运行。但是在实际测试和部署这些模型时,我们面临着一些挑战:
Live VLM WebUI 就是为了解决这些痛点而生的。
Live VLM WebUI 是一个开源的 Web 界面,用于实时测试 Vision Language Models。它可以:
GitHub 地址:https://github.com/nvidia-ai-iot/live-vlm-webui
采用 WebRTC 技术实现低延迟的视频传输,确保实时性。
支持主流的 VLM 服务后端:
已在以下平台测试通过:
pip install live-vlm-webui
live-vlm-webui
启动后打开浏览器访问 https://localhost:8090
git clone https://github.com/nvidia-ai-iot/live-vlm-webui.git
cd live-vlm-webui
./scripts/start_container.sh
git clone https://github.com/nvidia-ai-iot/live-vlm-webui.git
cd live-vlm-webui
pip install -e .
./scripts/start_server.sh
# Linux / Mac / Jetson
curl -fsSL https://ollama.com/install.sh | sh
# Windows
# 从 https://ollama.com/download 下载安装
# 推荐的轻量级模型
ollama pull gemma3:4b
# 或其他 Vision 模型
# ollama pull llama3.2-vision:11b
# ollama pull qwen2.5-vl:3b
https://localhost:8090http://localhost:11434/v1左侧菜单 "Prompt Editor" 提供了 8 个预设提示词:
场景描述
Describe what you see in this image in one sentence.
物体检测
List all objects you can see in this image, separated by commas.
动作识别
Describe the person's activity and what they are doing.
安全检测
Are there any safety hazards visible? Answer with 'ALERT: description' or 'SAFE'.
OCR 文字识别
Read and transcribe any text visible in the image.
自定义提示词
您也可以输入自己的提示词,支持中文!
请详细描述这个场景,包括物体的位置关系。
右侧面板实时显示:
我们在多个平台上进行了测试:
| 平台 | GPU | 模型 | 推理速度 |
|---|---|---|---|
| PC (RTX 6000 Ada) | RTX 6000 Ada | gemma3:4b | <1 秒/帧 |
| Jetson Orin Nano 8GB | 1024-core Ampere | gemma3:4b | 7-8 秒/帧 |
| Jetson Thor 128GB | 2560-core Blackwell | llama3.2-vision:11b | 1-2 秒/帧 |
| DGX Spark | 6144-core Blackwell | llama3.2-vision:11b | 1-2 秒/帧 |
| Mac M3 | Apple Silicon | gemma3:4b | 2-4 秒/帧 |
| Windows (WSL2) | RTX A3000 | gemma3:4b | 2-4 秒/帧 |
即使在最入门的 Jetson Orin Nano 8GB 开发板上(售价约 $249),使用 gemma3:4b 模型:
推理速度:7-8 秒/帧
VRAM 占用:6-7 GB
GPU 使用率:85-95%(推理时)
功耗:15-18W
温度:60-65°C
虽然推理速度较慢,但连续实时推理的能力使其在以下场景中仍然非常有价值:
快速评估不同 VLM 模型的性能:
为 Jetson 驱动的机器人提供视觉理解:
典型应用:
利用 VLM 进行智能质检:
优势:
在边缘设备上部署 VLM:
┌─────────────┐ WebRTC ┌──────────────┐
│ Browser │◄────────────────►│ WebUI │
│ (Client) │ │ Server │
└─────────────┘ └──────┬───────┘
│
│ HTTP/API
▼
┌──────────────┐
│ VLM Backend │
│ (Ollama/ │
│ vLLM/API) │
└──────────────┘
A: 支持所有兼容 OpenAI API 格式的 VLM,包括:
A: 可以,但推理速度会很慢。推荐使用 GPU。
A: 当前版本支持切换摄像头,多路同时运行的功能考虑在未来版本中支持。
A: 可以!项目采用 Apache 2.0 许可证,允许商业使用。
A: 不推荐。由于 VRAM 限制和算力不足,即使是最小的 VLM 模型(1-2B 参数)也难以实际运行。强烈推荐使用 Jetson Orin Nano 或更高配置。Orin Nano 8GB 开发板(售价 $249)是运行 VLM 的最低推荐配置。
A: 建议:
Live VLM WebUI 为 Vision Language Model 的测试和部署提供了一个简单易用的工具。无论您是:
都可以通过这个工具快速体验 VLM 的能力,并将其应用到实际项目中。
项目链接:

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online