前言
随着 Vision Language Model(视觉语言模型,简称 VLM)的快速发展,越来越多的开源模型可以在本地运行。但是在实际测试和部署这些模型时,我们面临着一些挑战:
- ❌ 需要编写自定义代码来处理视频流
- ❌ 缺乏统一的测试环境(PC、Jetson、云端各不相同)
- ❌ 难以实时监控 GPU/VRAM 使用情况
- ❌ 现有工具(如 Open WebUI)只支持静态图片上传,无法实时视频流
Live VLM WebUI 就是为了解决这些痛点而生的。
项目简介
Live VLM WebUI 是一个开源的 Web 界面,用于实时测试 Vision Language Models。它可以:
- 📹 将摄像头视频实时流式传输到任意 VLM
- 🔍 显示 AI 分析结果叠加层
- 📊 实时监控 GPU/CPU/VRAM 使用情况
- 🌐 支持多个平台(PC、Mac、Jetson、DGX)
- 🔌 支持多个后端(Ollama、vLLM、NVIDIA API Catalog、OpenAI)
GitHub 地址:https://github.com/nvidia-ai-iot/live-vlm-webui
核心特性
1. WebRTC 实时视频流
采用 WebRTC 技术实现低延迟的视频传输,确保实时性。
2. 多后端支持
支持主流的 VLM 服务后端:
- Ollama - 本地运行,隐私保护
- vLLM - 高性能推理引擎
- NVIDIA API Catalog - 云端 API
- OpenAI - GPT-4o Vision 等模型
3. 实时性能监控
- GPU 使用率
- VRAM 占用
- CPU 使用率
- 推理延迟
4. 跨平台支持
已在以下平台测试通过:
- Linux PC(NVIDIA GPU)
- Jetson Orin Nano / Orin NX / AGX Orin / Thor
- NVIDIA DGX Spark
- Mac(M1/M2/M3/M4)
- Windows(WSL2)
快速开始
环境要求
- Python 3.10+
- (可选)NVIDIA GPU + CUDA
- 摄像头(USB 或内置)
方法一:使用 pip 安装(推荐)
pip install live-vlm-webui
live-vlm-webui
启动后打开浏览器访问 https://localhost:8090
方法二:使用 Docker(适合 Jetson)
git clone https://github.com/nvidia-ai-iot/live-vlm-webui.git
cd live-vlm-webui
./scripts/start_container.sh


