基于 YOLO 与 LLM 的 Web 视觉检测系统

更新日志
- 2026/3/3:2.0 版本上线。前端导航栏重构为侧边栏,视频流采用 WebSocket 框架以降低延迟;YOLOv8/v11 视频流处理更稳定;新增 LLM 大模型智能分析模块。
- 功能增强:支持 YOLOv8/v11 分类、目标检测、分割、OBB(旋转框)、关键点检测任务;支持双模型联合检测(如人脸检测 + 表情分类);系统通用性强,可灵活替换自定义模型权重。
项目简介
在人工智能迈向多模态融合的今天,单纯的'画框'已难以满足复杂业务需求。如何让系统不仅'看见'画面,还能'思考'并生成报告,是视觉项目的核心方向。本项目将 YOLO 目标检测模型(兼容 v8/v11 系列)与 DeepSeek 等大语言模型(LLM)进行联合,采用 Django(后端)+ Vue3(前端)技术栈,构建具备'视觉感知 ➡️ 智能分析 ➡️ 对话问答'闭环的全能型 AI 视觉助手 Web 系统。
这是一个通用的 Web 系统架构,适用于科研、课程设计、个人学习及工业落地等场景。
核心特性
- CV + LLM 视觉大语言模型:引入 DeepSeek 等大模型接口,YOLO 负责精准提取画面中的目标信息(如人数、物品、异常状态),LLM 负责接管数据并生成自然语言报告、安全预警或业务建议。系统内嵌 AI 智能助手聊天界面,用户可针对检测画面直接与大模型进行对话分析。
- 兼容单/双模型:支持单模型目标检测与图像分类,也支持双模型联合识别。例如先由检测模型锁定关键区域(如人脸、车辆),再自动把检测结果输入到分类模型进行分类识别(如表情识别、车型分类),多维度标签前端实时渲染。
- 支持多种任务:涵盖 目标检测、图像分类、实例分割、关键点姿态估计 及 旋转框检测 (OBB)。支持本地图片、视频流以及外接摄像头实时检测。
- 参数配置:前端支持切换模型,实时拖拽滑块调节置信度 (Confidence) 和交并比 (IoU)、结果保存等。
常见应用场景
通用的系统只需替换自己的 .pt 权重文件即可,常见的任务如下:
目标检测任务
结合大模型可实现'检测 + 智能业务预警'闭环。
- 智慧工地:施工现场安全防护装备(安全帽、反光衣)规范检测。
- 智慧电网:无人机巡检视角下的输电线路绝缘子破损与异常目标检测。
- 智慧交通:复杂路况下的多目标车辆追踪与行人违规横穿斑马线检测。
- 智慧农业:自然光照环境下的农作物表面病虫害定位与目标检测。
- 森林防火:基于无人机航拍视角的林区火灾烟雾与早期火情智能检测。
- 工业质检:智能制造流水线上的金属表面缺陷(划痕、裂纹)检测。
- 海洋探索:水下机器人视角的密集海洋生物目标检测。
- 医疗辅助:基于医学影像的肺部结节或骨折病灶区域智能筛查。
- 智能零售:无人超市复杂背景下的商品货架密集目标检测与盘点。
- 航空航天:遥感影像下的小目标飞机、机场设施与船舶精细化检测。
图像分类
- :复杂背景下的中草药种类图像分类与智能分析。
















