
更新日志
- 2026/3/3:2.0 版本发布。前端导航栏重构为侧边栏,视频流改用 WebSocket 框架以降低延迟;YOLOv8/v11 视频流处理更稳定;新增 LLM 大模型智能分析模块。
- 功能增强:支持 YOLOv8/v11 分类、目标检测、分割、OBB、关键点检测任务;支持双模型联合检测(如人脸检测 + 表情分类);支持自定义模型权重替换。
项目概述
在人工智能迈向通用化(AGI)的趋势下,'视觉感知 + 语言理解'的多模态联合应用成为重点。单纯的目标检测已难以满足复杂业务需求,如何让系统'看懂'画面并进行'思考',是当前视觉项目的核心。本项目将 YOLO 目标检测模型(兼容 v8/v11 系列)与 DeepSeek 等大语言模型(LLM)进行联合,采用 Django(后端)+ Vue3(前端)技术栈,构建具备'视觉感知 ➡️ 智能分析 ➡️ 对话问答'闭环的全能型 AI 视觉助手 Web 系统。
这是一个通用的 Web 架构,可灵活更换模型权重,兼顾科研、课程作业、个人学习及工业应用场景。
核心特性
- CV + LLM 视觉大语言模型:引入 DeepSeek 等大模型接口,YOLO 负责精准提取画面中的目标信息(人数、物品、异常状态),LLM 负责接管数据并生成自然语言报告、安全预警或业务建议。系统内嵌 AI 智能助手聊天界面,用户可针对检测画面直接与大模型进行对话分析。
- 单/双模型兼容:支持单模型目标检测与图像分类,也支持双模型联合识别。例如先由检测模型锁定关键区域(人脸、车辆),再自动把检测结果输入到分类模型进行分类(表情、车型),多维度标签前端实时渲染。
- 多任务支持:涵盖目标检测、图像分类、实例分割、关键点姿态估计及旋转框检测 (OBB)。支持本地图片、视频流以及外接摄像头实时检测。
- 参数配置:前端支持切换模型,实时拖拽滑块调节置信度 (Confidence) 和交并比 (IoU),结果保存等功能。
常见应用场景
通用的系统只需替换自己的 .pt 权重文件即可适配以下任务:
- 智能情感陪伴与分析助手:YOLO 实时捕捉面部表情,DeepSeek 根据情绪状态提供对话疏导。
- 智慧工地安全 AI 巡检:YOLO 抓拍安全帽/反光衣违规,LLM 自动生成安全日报。
- 智慧停车与计费:车辆与车牌检测联动,AI 助手支持自然语言查询停车时长与费用。
- 异常行为监控:结合监控画面中的跌倒、打架等行为,大模型分析严重程度并生成预案。
目标检测任务
结合大模型可实现'检测 + 智能业务预警'闭环,典型场景包括:
- 智慧工地:安全防护装备规范检测。
- 智慧电网:输电线路绝缘子破损检测。
- 智慧交通:多目标车辆追踪与行人违规检测。
- 智慧农业:农作物病虫害定位。
- 森林防火:林区火灾烟雾与早期火情检测。
- 工业质检:金属表面缺陷检测。
- 医疗辅助:医学影像病灶筛查。
- 智能零售:商品货架密集目标检测与盘点。
图像分类
- 中医药材:中草药种类图像分类与智能分析。
- 植物科普:花卉、植物种类识别与百科科普。














