基于 YOLO 与 LLM 的 Web 视觉分析系统
项目概述
在人工智能迈向通用化的今天,单纯的'视觉感知'已难以满足复杂业务需求。将目标检测模型与大语言模型(LLM)结合,实现从'看懂画面'到'智能分析'的闭环,是当前视觉项目的重点趋势。
本项目采用 Django(后端)+ Vue3(前端)技术栈,构建了一个具备实时视频流处理、多模态任务支持及自然语言交互能力的 AI 视觉助手 Web 系统。系统兼容 YOLOv8/v11 系列模型,支持单模型检测或双模型联合推理(如先检测人脸再识别表情),并集成 DeepSeek 等大模型接口进行数据解读与报告生成。
核心功能特性
1. 多任务支持
系统不仅限于基础的目标检测,还覆盖了计算机视觉的主流任务:
- 目标检测:精准定位画面中的物体,如人员、车辆、安全帽等。
- 图像分类:对特定区域或整体图像进行类别判定,如药材种类、病害等级。
- 实例分割:像素级提取目标轮廓,适用于面积计算或精细抠图场景。
- 关键点姿态估计:用于行为分析,如跌倒检测、动作规范性评估。
- 旋转框检测 (OBB):针对倾斜目标(如船舶、文字)的高精度检测。
2. 双模型联合推理
为了解决单一模型在特定场景下的准确率瓶颈,系统支持双模型联动。例如在人脸表情识别中,先用检测模型锁定人脸区域,再将裁剪后的图像输入表情分类模型。这种架构同样适用于车型分类、工业缺陷细分等需要'定位 + 识别'的任务。
3. 实时性与交互
- 低延迟视频流:前端导航栏改为侧边栏布局,视频流采用 WebSocket 框架传输,显著降低延迟。
- AI 智能助手:内嵌聊天界面,用户可直接针对检测画面提问(如'画面中有几个人没戴安全帽?'),大模型接管数据并生成自然语言建议。
- 参数灵活配置:前端支持实时切换模型,拖拽滑块调节置信度 (Confidence) 和交并比 (IoU),结果可保存导出。
典型应用场景
系统通过替换 .pt 权重文件即可适配不同领域:
- 智慧工地安全巡检:YOLO 抓拍违规行为,LLM 自动生成日报与安全预警。
- 医疗辅助诊断:医学影像病灶筛查与病理分析,配合大模型提供初步建议。
- 智慧农业与环保:农作物病虫害定位、垃圾分类识别及生态监测。
- 工业质检:流水线表面缺陷(划痕、裂纹)的像素级分割与统计。
- 智能客服与安防:异常行为(跌倒、打架)监控与自动预案生成。
技术架构与部署
环境配置
- 后端:Python 环境,依赖 Django 框架及 PyTorch 深度学习库。
- 前端:Node.js 环境,使用 Vue3 + TypeScript + pnpm 管理依赖。
- 数据库:MySQL 存储用户信息与检测记录。
启动流程
- 后端初始化:配置
settings.py中的数据库连接,运行python manage.py migrate初始化表结构。 - 前端构建:安装
pnpm,执行pnpm install后启动开发服务器。 - 模型加载:将训练好的权重文件放入指定目录,确保路径配置正确。
- 服务联调:确保前后端端口映射正常,WebSocket 连接畅通。


