基于 YOLOv8/v11 与 LLM 的 Web 视觉检测系统
在人工智能迈向通用化的今天,单纯的'视觉感知'已难以满足复杂业务需求。如何让系统不仅'看懂'画面,还能进行'思考',是当前视觉项目的重点。本项目整合了 YOLO 目标检测模型(兼容 v8/v11 系列)与主流大语言模型(LLM),采用 Django(后端)+ Vue3(前端)技术栈,构建了一个具备'视觉感知 ➡️ 智能分析 ➡️ 对话问答'闭环的全能型 AI 视觉助手 Web 系统。
这是一个通用的 Web 系统架构,支持灵活替换 .pt 权重文件,兼顾科研、课程作业、个人学习及工业应用场景。
核心特性
1. CV + LLM 多模态融合
引入 DeepSeek 等大模型接口,YOLO 负责精准提取画面中的目标信息(如人数、物品、异常状态),LLM 负责接管数据并生成自然语言报告、安全预警或业务建议。系统内嵌 AI 智能助手聊天界面,用户可针对检测画面直接与大模型进行对话分析(例如问:'画面中有几个人没戴安全帽?应该采取什么措施?')。
2. 单/双模型联合识别
支持单模型目标检测与图像分类,也支持双模型联合识别。例如先由检测模型锁定关键区域(如人脸、车辆),再自动把检测结果输入到分类模型进行分类识别(如表情识别、车型分类)。这种组合方式能有效解决单一模型在特定场景下准确率不足的问题,多维度标签前端实时渲染。
3. 多任务支持
涵盖 目标检测、图像分类、实例分割、关键点姿态估计 及 旋转框检测 (OBB)。支持本地图片、视频流以及外接摄像头实时检测。
4. 参数配置
前端支持切换模型,实时拖拽滑块调节置信度 (Confidence) 和交并比 (IoU),结果保存等功能一应俱全。
常见应用场景
通用的系统你只需替换自己的 .pt 权重文件即可,常见的任务如下:
- 智能情感陪伴与分析助手:YOLO 实时捕捉并识别面部表情,DeepSeek 大模型根据用户的情绪状态提供充满温度的对话疏导与陪伴。
- 智慧工地安全 AI 巡检系统:YOLO 负责安全帽/反光衣的实时违规抓拍,LLM 助手自动汇总当日违规数据,生成自然语言形式的'施工现场安全分析日报'。
- 智慧停车与自动计费管家:车辆与车牌检测模型联动识别,AI 助手接管数据,支持用户通过自然语言查询'某车牌号停了多久?需要缴纳多少费用?'
- 智能客服与异常行为监控系统:集成 AI 客服对话窗口,结合监控画面中的跌倒、打架等异常行为,大模型第一时间分析现场严重程度并生成处理预案。
细分任务领域
- 目标检测:智慧工地、智慧电网、智慧交通、智慧农业、森林防火、工业质检、海洋探索、医疗辅助、智能零售、航空航天。
- 图像分类:中医药材、植物科普、环保回收、农业病害、生态保护、情绪感知、医疗诊断、自动驾驶、遥感测绘、智慧餐饮。
- 关键点检测与姿态估计:智慧教育、智慧养老/医疗、体育竞技、疲劳驾驶、智慧畜牧。
- 旋转目标检测 (OBB):遥感测绘、智慧城市、精密制造、智能物流、文本识别。
- 目标分割:医学影像辅助分析、自动驾驶与高精地图、智慧农业与自动化采摘、遥感测绘与城市规划、工业精细化质检、智能美业与虚拟试衣、农作物表型与病害分析、海洋与水下探索、材料科学显微分析、牙科医学智能诊断。
界面演示
系统包含用户端与管理端,界面直观流畅。
| 模块 | 界面演示 |
|---|---|
| 用户端—登录 | ![]() |















