跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI大前端算法

基于 YOLO 与 LLM 的 Web 目标检测与智能分析系统

本系统整合 YOLO 目标检测模型与 LLM 大语言模型,采用 Django+Vue3 前后端分离架构,实现视觉感知与智能分析的闭环。支持目标检测、图像分类、实例分割、关键点姿态估计及旋转框检测等多种任务,兼容单/双模型联合识别。通过 WebSocket 实现低延迟视频流处理,内置 AI 智能助手支持自然语言对话分析,适用于安防监控、智慧工地、医疗辅助等多个场景。系统支持自定义模型权重替换,具备良好的扩展性与科研应用价值。

魔尊发布于 2026/3/16更新于 2026/6/917 浏览
基于 YOLO 与 LLM 的 Web 目标检测与智能分析系统

基于 YOLO 与 LLM 的 Web 目标检测与智能分析系统

在人工智能迈向通用化(AGI)的今天,"视觉感知 + 语言理解"的多模态联合是未来的趋势。单纯的检测画框已经无法满足复杂的业务需求,如何让系统'看懂'画面并进行'思考',是当前视觉项目的重点。本项目将 YOLO 目标检测模型(兼容 v8/v11 系列)与 DeepSeek 等大语言模型(LLM)进行联合,使用 Django (后端) + Vue3 (前端) 技术栈,完成一个具备'视觉感知 ➡️ 智能分析 ➡️ 对话问答'闭环的全能型 AI 视觉助手 Web 系统。

这是一个通用的 Web 系统,可以更换自己的模型权重文件,兼顾科研、大作业、个人学习、毕设及工业等应用场景。

核心功能

  • CV + LLM 视觉大语言模型:引入 DeepSeek 等大模型接口,YOLO 负责精准提取画面中的目标信息(如人数、物品、异常状态),LLM 负责接管数据并生成自然语言报告、安全预警或业务建议。系统内嵌 AI 智能助手聊天界面,用户可针对检测画面直接与大模型进行对话分析。
  • 兼容单/双模型:支持单模型目标检测与图像分类,也支持双模型联合识别。例如先由检测模型锁定关键区域(如人脸、车辆),再自动把检测结果输入到分类模型进行分类识别(如表情识别、车型分类),多维度标签前端实时渲染。
  • 支持多种任务:目标检测、图像分类、实例分割、关键点姿态估计及旋转框检测 (OBB)。支持本地图片、视频流以及外接摄像头实时检测。
  • 参数配置:前端支持切换模型,实时拖拽滑块调节置信度 (Confidence) 和交并比 (IoU)、结果保存等。

常见应用场景

通用的系统只需替换自己的 .pt 权重文件即可,常见的任务如下:

目标检测任务

结合大模型可实现'检测 + 智能业务预警'闭环。

  1. 智慧工地:施工现场安全防护装备(安全帽、反光衣)规范检测。
  2. 智慧电网:无人机巡检视角下的输电线路绝缘子破损与异常目标检测。
  3. 智慧交通:复杂路况下的多目标车辆追踪与行人违规横穿斑马线检测。
  4. 智慧农业:自然光照环境下的农作物表面病虫害定位与目标检测。
  5. 森林防火:基于无人机航拍视角的林区火灾烟雾与早期火情智能检测。
  6. 工业质检:智能制造流水线上的金属表面缺陷(划痕、裂纹)检测。
  7. 医疗辅助:基于医学影像(X 光/CT)的肺部结节或骨折病灶区域智能筛查。

图像分类

  1. 中医药材:复杂背景下的中草药种类图像分类与智能分析。
  2. 植物科普:自然场景下的常见花卉、植物种类识别与百科科普。
  3. 环保回收:基于深度学习的智能垃圾分类与指导系统。
  4. 情绪感知:基于面部微特征的人脸情绪识别与心理状态评估。
  5. 自动驾驶:全天候环境下的交通标志标牌高精度分类与识别。

关键点检测与姿态估计

  1. 智慧教育:学生上课行为(举手、趴桌)与疲劳姿态估计。
  2. 智慧养老 / 医疗:跌倒检测报警系统与康复训练中的人体骨骼姿态矫正评估。
  3. 体育竞技:基于关键点追踪的运动员动作规范性 AI 辅助分析。
  4. 疲劳驾驶:基于面部与身体关键点的驾驶员分心、打瞌睡危险动作实时监测。

旋转目标检测 (OBB)

专治各种密集、倾斜目标。

  1. 遥感测绘:高分辨率遥感影像下的任意方向密集船舶与港口设施旋转框检测。
  2. 智慧城市:无人机俯视视角的密集停车场车辆任意角度倾斜检测。
  3. 精密制造:工业印刷电路板(PCB)密集微小电子元器件旋转缺陷检测。

目标分割

实现像素级的精细轮廓提取,常用于需要精确计算面积、体积或进行精密抠图的场景。

  1. 医学影像辅助分析:显微镜下的细胞核实例分割,或 CT/MRI 影像中的肿瘤病灶像素级提取。
  2. 自动驾驶与高精地图:复杂街景下的可行驶区域语义分割,以及行人、车辆的精细实例分割。
  3. 智慧农业与自动化采摘:果园复杂背景下的重叠果实精细实例分割。

界面演示

模块界面演示
用户端—登录用户端登录
用户端—注册用户端注册
用户端 - 双模型检测任务双模型检测
用户端—分类任务分类任务
用户端—关键点任务关键点任务
用户端—人脸检测任务人脸检测
用户端—摄像头检测摄像头检测
用户端—obb 旋转框任务旋转框任务
用户端—检测记录检测记录
用户端—AI 模块AI 模块
AI 助手模块AI 助手
管理端—历史数据管理模块历史数据
管理端—用户管理模块用户管理

基础环境配置

运行环境

目录

  1. 基于 YOLO 与 LLM 的 Web 目标检测与智能分析系统
  2. 核心功能
  3. 常见应用场景
  4. 目标检测任务
  5. 图像分类
  6. 关键点检测与姿态估计
  7. 旋转目标检测 (OBB)
  8. 目标分割
  9. 界面演示
  10. 基础环境配置
  11. 运行环境
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Elasticsearch 核心概念与 Java 客户端实战
  • FunASR 离线文件转写服务部署与开发实战
  • 循环神经网络(RNN)与序列数据处理实战
  • 机器人阻抗控制器与导纳控制器原理
  • VS Code Copilot Chat 扩展调试指南:5 种日志分析方法
  • Java GUI 组件详解:下拉菜单与弹出菜单
  • Android Framework 框架层源码深度解析:启动流程与核心组件
  • C++ 类和对象:拷贝构造与赋值运算符重载详解
  • 大模型领域 20 篇精选研究论文导读
  • C++ OpenGL 环境配置与基础渲染实战
  • Llama3 快速体验:Groq 平台 4 种接入方案与性能分析
  • LLaMA-2 与 Mixtral 提示词调优实战技巧
  • EhViewer:安卓开源漫画阅读器安装与使用指南
  • Android Framework 核心源码解析:从系统启动到应用框架详解
  • Redis 主从复制原理详解:配置、同步与故障处理
  • C++ 高性能内存池设计与实现
  • Llama-3.2V-11B-COT 教育场景解题推理辅助应用实战
  • C++ string 类基础用法与经典算法题解析
  • Python 核心知识点与面试常见问题汇总
  • LangGraph v0.1 正式发布:构建自定义认知架构的新工具

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online