基于 YOLO 与 LLM 的 Web 目标检测与智能分析系统

本系统整合 YOLO 目标检测模型与 LLM 大语言模型，采用 Django+Vue3 前后端分离架构，实现视觉感知与智能分析的闭环。支持目标检测、图像分类、实例分割、关键点姿态估计及旋转框检测等多种任务，兼容单/双模型联合识别。通过 WebSocket 实现低延迟视频流处理，内置 AI 智能助手支持自然语言对话分析，适用于安防监控、智慧工地、医疗辅助等多个场景。系统支持自定义模型权重替换，具备良好的扩展性与科研应用价值。

魔尊发布于 2026/3/16更新于 2026/7/2333 浏览

基于 YOLO 与 LLM 的 Web 目标检测与智能分析系统

在人工智能迈向通用化（AGI）的今天，"视觉感知 + 语言理解"的多模态联合是未来的趋势。单纯的检测画框已经无法满足复杂的业务需求，如何让系统'看懂'画面并进行'思考'，是当前视觉项目的重点。本项目将 YOLO 目标检测模型（兼容 v8/v11 系列）与 DeepSeek 等大语言模型（LLM）进行联合，使用 Django (后端) + Vue3 (前端) 技术栈，完成一个具备'视觉感知 ➡️ 智能分析 ➡️ 对话问答'闭环的全能型 AI 视觉助手 Web 系统。

这是一个通用的 Web 系统，可以更换自己的模型权重文件，兼顾科研、大作业、个人学习、毕设及工业等应用场景。

核心功能

CV + LLM 视觉大语言模型：引入 DeepSeek 等大模型接口，YOLO 负责精准提取画面中的目标信息（如人数、物品、异常状态），LLM 负责接管数据并生成自然语言报告、安全预警或业务建议。系统内嵌 AI 智能助手聊天界面，用户可针对检测画面直接与大模型进行对话分析。
兼容单/双模型：支持单模型目标检测与图像分类，也支持双模型联合识别。例如先由检测模型锁定关键区域（如人脸、车辆），再自动把检测结果输入到分类模型进行分类识别（如表情识别、车型分类），多维度标签前端实时渲染。
支持多种任务：目标检测、图像分类、实例分割、关键点姿态估计及旋转框检测 (OBB)。支持本地图片、视频流以及外接摄像头实时检测。
参数配置：前端支持切换模型，实时拖拽滑块调节置信度 (Confidence) 和交并比 (IoU)、结果保存等。

常见应用场景

通用的系统只需替换自己的 .pt 权重文件即可，常见的任务如下：

目标检测任务

结合大模型可实现'检测 + 智能业务预警'闭环。

智慧工地：施工现场安全防护装备（安全帽、反光衣）规范检测。
智慧电网：无人机巡检视角下的输电线路绝缘子破损与异常目标检测。
智慧交通：复杂路况下的多目标车辆追踪与行人违规横穿斑马线检测。
智慧农业：自然光照环境下的农作物表面病虫害定位与目标检测。
森林防火：基于无人机航拍视角的林区火灾烟雾与早期火情智能检测。
工业质检：智能制造流水线上的金属表面缺陷（划痕、裂纹）检测。
医疗辅助：基于医学影像（X 光/CT）的肺部结节或骨折病灶区域智能筛查。

图像分类

中医药材：复杂背景下的中草药种类图像分类与智能分析。
植物科普：自然场景下的常见花卉、植物种类识别与百科科普。
环保回收：基于深度学习的智能垃圾分类与指导系统。
情绪感知：基于面部微特征的人脸情绪识别与心理状态评估。
自动驾驶：全天候环境下的交通标志标牌高精度分类与识别。

关键点检测与姿态估计

智慧教育：学生上课行为（举手、趴桌）与疲劳姿态估计。
智慧养老 / 医疗：跌倒检测报警系统与康复训练中的人体骨骼姿态矫正评估。
体育竞技：基于关键点追踪的运动员动作规范性 AI 辅助分析。
疲劳驾驶：基于面部与身体关键点的驾驶员分心、打瞌睡危险动作实时监测。

旋转目标检测 (OBB)

专治各种密集、倾斜目标。

遥感测绘：高分辨率遥感影像下的任意方向密集船舶与港口设施旋转框检测。
智慧城市：无人机俯视视角的密集停车场车辆任意角度倾斜检测。

模块	界面演示
用户端—登录
用户端—注册
用户端 - 双模型检测任务
用户端—分类任务
用户端—关键点任务
用户端—人脸检测任务
用户端—摄像头检测
用户端—obb 旋转框任务
用户端—检测记录
用户端—AI 模块
AI 助手模块
管理端—历史数据管理模块
管理端—用户管理模块

基于 YOLO 与 LLM 的 Web 目标检测与智能分析系统

基于 YOLO 与 LLM 的 Web 目标检测与智能分析系统