Live VLM WebUI 实时视觉语言模型测试工具 | 极客日志

PythonAI算法

Live VLM WebUI 实时视觉语言模型测试工具

Live VLM WebUI 是一款开源的 Web 界面工具，用于实时测试视觉语言模型（VLM）。它支持通过 WebRTC 将摄像头视频流传输至任意 VLM 后端，如 Ollama、vLLM 或 OpenAI API。工具提供 GPU/VRAM/CPU 实时监控、多平台兼容（PC、Jetson、Mac 等）及多种预设提示词功能。适用于机器人导航、工业质检、安防监控等边缘 AI 场景，帮助开发者快速评估模型性能与部署效果。

战神发布于 2026/4/5更新于 2026/5/2128 浏览

前言

随着 Vision Language Model（视觉语言模型，简称 VLM）的快速发展，越来越多的开源模型可以在本地运行。但是在实际测试和部署这些模型时，我们面临着一些挑战：

❌ 需要编写自定义代码来处理视频流
❌ 缺乏统一的测试环境（PC、Jetson、云端各不相同）
❌ 难以实时监控 GPU/VRAM 使用情况
❌ 现有工具（如 Open WebUI）只支持静态图片上传，无法实时视频流

Live VLM WebUI 就是为了解决这些痛点而生的。

项目简介

Live VLM WebUI 是一个开源的 Web 界面，用于实时测试 Vision Language Models。它可以：

📹 将摄像头视频实时流式传输到任意 VLM
🔍 显示 AI 分析结果叠加层
📊 实时监控 GPU/CPU/VRAM 使用情况
🌐 支持多个平台（PC、Mac、Jetson、DGX）
🔌 支持多个后端（Ollama、vLLM、NVIDIA API Catalog、OpenAI）

GitHub 地址：https://github.com/nvidia-ai-iot/live-vlm-webui

核心特性

1. WebRTC 实时视频流

采用 WebRTC 技术实现低延迟的视频传输，确保实时性。

2. 多后端支持

支持主流的 VLM 服务后端：

Ollama - 本地运行，隐私保护
vLLM - 高性能推理引擎
NVIDIA API Catalog - 云端 API
OpenAI - GPT-4o Vision 等模型

3. 实时性能监控

GPU 使用率
VRAM 占用
CPU 使用率
推理延迟

4. 跨平台支持

已在以下平台测试通过：

Linux PC（NVIDIA GPU）
Jetson Orin Nano / Orin NX / AGX Orin / Thor
NVIDIA DGX Spark
Mac（M1/M2/M3/M4）
Windows（WSL2）

快速开始

环境要求

Python 3.10+
（可选）NVIDIA GPU + CUDA
摄像头（USB 或内置）

方法一：使用 pip 安装（推荐）

pip install live-vlm-webui
live-vlm-webui

启动后打开浏览器访问 https://localhost:8090

方法二：使用 Docker（适合 Jetson）

git clone https://github.com/nvidia-ai-iot/live-vlm-webui.git
cd live-vlm-webui
./scripts/start_container.sh

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

git clone https://github.com/nvidia-ai-iot/live-vlm-webui.git
cd live-vlm-webui
pip install -e .
./scripts/start_server.sh

# Linux / Mac / Jetson
curl -fsSL https://ollama.com/install.sh | sh
# Windows
# 从 https://ollama.com/download 下载安装

# 推荐的轻量级模型
ollama pull gemma3:4b
# 或其他 Vision 模型
# ollama pull llama3.2-vision:11b
# ollama pull qwen2.5-vl:3b

Describe what you see in this image in one sentence.

List all objects you can see in this image, separated by commas.

Describe the person's activity and what they are doing.

Are there any safety hazards visible? Answer with 'ALERT: description' or 'SAFE'.

Read and transcribe any text visible in the image.

请详细描述这个场景，包括物体的位置关系。

平台	GPU	模型	推理速度
PC (RTX 6000 Ada)	RTX 6000 Ada	gemma3:4b	<1 秒/帧
Jetson Orin Nano 8GB	1024-core Ampere	gemma3:4b	7-8 秒/帧
Jetson Thor 128GB	2560-core Blackwell	llama3.2-vision:11b	1-2 秒/帧
DGX Spark	6144-core Blackwell	llama3.2-vision:11b	1-2 秒/帧
Mac M3	Apple Silicon	gemma3:4b	2-4 秒/帧
Windows (WSL2)	RTX A3000	gemma3:4b	2-4 秒/帧

推理速度：7-8 秒/帧
VRAM 占用：6-7 GB
GPU 使用率：85-95%（推理时）
功耗：15-18W
温度：60-65°C

┌─────────────┐ WebRTC ┌──────────────┐
│ Browser     │◄────────────────►│ WebUI    │
│ (Client)    │                │ Server   │
└─────────────┘                └──────┬───────┘
                                      │
                                      │ HTTP/API
                                      ▼
                               ┌──────────────┐
                               │ VLM Backend  │
                               │ (Ollama/     │
                               │ vLLM/API)    │
                               └──────────────┘

Live VLM WebUI 实时视觉语言模型测试工具

前言

项目简介

核心特性

1. WebRTC 实时视频流

2. 多后端支持

3. 实时性能监控

4. 跨平台支持

快速开始

环境要求

方法一：使用 pip 安装（推荐）

方法二：使用 Docker（适合 Jetson）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

方法三：从源码安装

结合 Ollama 使用

Step 1: 安装 Ollama

Step 2: 下载 Vision 模型

Step 3: 配置 Live VLM WebUI

Step 4: 开始使用

主要功能详解

提示词工程（Prompt Engineering）

性能监控

摄像头设置

性能测试数据

Jetson Orin Nano 性能分析

应用场景

1. 模型性能测试与对比

2. 机器人视觉系统

3. 工业质检

4. 智慧城市/安防

5. 教育与研究

技术架构

系统组件

关键技术

常见问题

Q: 支持哪些 VLM 模型？

Q: 可以在 CPU 上运行吗？

Q: 支持多个摄像头吗？

Q: 可以用于商业项目吗？

Q: Jetson Nano 2GB/4GB 能运行吗？

Q: 如何提高推理速度？

未来计划

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具