跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
JavaAIjava算法

基于 YOLO 系列与 SpringBoot 的行人车辆检测系统

综述由AI生成一个基于深度学习与 Web 技术的实时行人车辆检测与分析系统。系统核心集成 YOLOv8、YOLOv10、YOLOv11 及 YOLOv12 四种目标检测算法,支持灵活切换。采用前后端分离架构,后端基于 SpringBoot 构建 RESTful API,前端提供直观交互界面。创新性地集成 DeepSeek 大型语言模型进行智能语义分析。系统实现用户管理、多模态检测(图像、视频、摄像头)及全流程数据追溯,数据持久化存储于 MySQL。经测试在 5607 张图像数据集上表现稳定,提供了可部署的一体化解决方案。

林间仙子发布于 2026/2/7更新于 2026/5/3035 浏览
基于 YOLO 系列与 SpringBoot 的行人车辆检测系统

摘要

随着城市化进程的加速和智能交通系统的普及,高效、准确的行人与车辆目标检测成为智慧城市、自动驾驶及公共安全等领域的关键技术。传统视频监控方法依赖于人工筛查,存在实时性差、易漏检和成本高昂等问题。本研究设计并实现了一个基于深度学习与 Web 技术的实时行人车辆检测与分析系统。系统核心集成当前最前沿的 YOLOv8、YOLOv10、YOLOv11 及 YOLOv12 四种目标检测算法,构建了一套可灵活切换、性能优异的检测引擎,专门针对'行人'和'车辆'两类目标进行精准识别与定位。系统采用前后端分离架构,后端基于 SpringBoot 框架构建,提供了 RESTful API 接口;前端提供直观的交互界面,实现了用户管理、多模态检测(图像、视频、实时摄像头)与全流程数据追溯。创新性地集成 DeepSeek 大型语言模型,可为检测场景提供智能语义分析与报告生成,提升了系统的决策支持能力。系统将全部检测记录与用户数据持久化存储于 MySQL 数据库,并通过可视化图表展示检测统计结果。经测试,系统在 5607 张图像数据集上表现稳定,实现了从算法应用到业务管理的完整闭环,为相关领域提供了可部署、易扩展的一体化解决方案。

关键词: 目标检测;YOLO 系列;行人车辆检测;SpringBoot;DeepSeek;前后端分离;智能交通


引言

研究背景与意义

在当今社会,交通管理与公共安全面临着日益严峻的挑战。实时、精准地感知道路环境中的行人及车辆,是实现智能交通信号控制、自动驾驶辅助系统、智能安防监控及人流车流统计分析等高级应用的基础。然而,传统的人工监控方式已无法满足 7x24 小时不间断、大范围、高精度的监控需求。随着深度学习技术的迅猛发展,尤其是以 YOLO(You Only Look Once)系列为代表的单阶段目标检测算法,因其在速度和精度上的卓越平衡,已成为解决实时视觉检测任务的首选方案。将这类先进的算法封装为稳定、易用的 Web 服务,赋能一线管理人员,具有重要的现实意义和应用价值。

国内外研究现状

近年来,目标检测领域成果丰硕。从 YOLOv1 到最新的 YOLOv12,算法通过引入更高效的网络骨干(如 CSPNet、RepVGG)、改进的特征金字塔(如 PANet、BiFPN)以及更优的损失函数(如 CIoU、DFL),不断刷新着检测精度与速度的极限。这些进展为构建高性能的实时检测系统提供了坚实的技术基础。与此同时,企业级应用开发趋势趋向于前后端分离的微服务架构,SpringBoot 以其快速构建、配置简便和生态繁荣的特点,成为后端服务开发的主流框架。将深度学习模型服务化,并与业务系统深度集成,已成为 AI 落地的重要模式。此外,多模态大模型(如 DeepSeek)在图像理解与文本生成方面的强大能力,为增强传统视觉系统的'认知'和'解释'能力开辟了新的路径,使系统不仅能'看到',更能'理解'和'描述'场景。

本文研究内容与贡献

针对现有行人车辆检测系统在模型多样性、系统集成度和智能交互性方面的不足,本文研发了一个集'前沿算法集成、多模态智能分析、精细化业务管理'于一体的综合性 Web 检测平台。本文的主要贡献如下:

  1. 构建了专用的行人车辆检测数据集: 收集并精细标注了包含'行人 (person)'和'车辆 (car)'两类目标的图像共计 5607 张,划分为训练集(4485 张)和验证集(1122 张),为模型的训练与性能评估提供了可靠的数据支持。
  2. 实现了多版本 YOLO 模型的统一集成与便捷切换: 系统同时集成了 YOLOv8、YOLOv10、YOLOv11 及 YOLOv12 模型。用户可根据实际场景对实时性及准确性的不同需求,在前端界面一键切换模型,实现了算法性能的横向对比与按需应用。
  3. 创新性地引入 DeepSeek 模型进行场景智能分析: 在完成基础的视觉检测后,系统可调用 DeepSeek API,对检测结果进行深入的文本分析,生成包含场景描述、潜在风险提示或统计分析的自然语言报告,极大地提升了系统的可解释性和交互智能。
  4. 开发了功能完备、高可用的全栈 Web 应用系统: 采用前后端分离架构,基于 SpringBoot+MySQL+Vue.js(示例)技术栈,实现了从用户认证授权、多源数据检测(图片上传、视频解析、摄像头实时流)、检测记录全生命周期管理、数据可视化看板到系统管理员后台的完整业务流程。系统设计注重鲁棒性、安全性和可扩展性。

系统核心特性概述

功能模块

  • ✅ 用户登录注册:支持密码检测,保存到 MySQL 数据库。
  • ✅ 支持四种 YOLO 模型切换,YOLOv8、YOLOv10、YOLOv11、YOLOv12。
  • ✅ 信息可视化,数据可视化。
  • ✅ 图片检测支持 AI 分析功能,deepseek
  • ✅ 支持图像检测、视频检测和摄像头实时检测,检测结果保存到 MySQL 数据库。
  • ✅ 图片识别记录管理、视频识别记录管理和摄像头识别记录管理。
  • ✅ 用户管理模块,管理员可以对用户进行增删改查。
  • ✅ 个人中心,可以修改自己的信息,密码姓名头像等等。

登录注册模块

系统提供安全的身份验证机制,支持密码加密存储。

可视化模块

系统内置数据可视化组件,展示检测统计结果。

图像检测模块

  • YOLO 模型集成 (v8/v10/v11/v12)
  • DeepSeek 多模态分析
  • 支持格式:JPG/PNG/MP4/RTSP

视频检测模块

支持上传视频文件进行检测,并保存识别记录。

实时检测模块

支持接入摄像头实时流进行在线检测。

图片识别记录管理

管理历史图片检测记录,支持查询与回溯。

视频识别记录管理

管理历史视频检测记录。

摄像头识别记录管理

管理实时监控流检测记录。

用户管理模块

管理员可对系统用户进行增删改查操作。

数据管理模块(MySQL 表设计)

  • users - 用户信息表
  • imgrecords - 图片检测记录表
  • videorecords - 视频检测记录表
  • camerarecords - 摄像头检测记录表

模型训练结果

#coding:utf-8 #根据实际情况更换模型 # yolon.yaml (nano):轻量化模型,适合嵌入式设备,速度快但精度略低。 # yolos.yaml (small):小模型,适合实时任务。 # yolom.yaml (medium):中等大小模型,兼顾速度和精度。 # yolob.yaml (base):基本版模型,适合大部分应用场景。 # yolol.yaml (large):大型模型,适合对精度要求高的任务。
from ultralytics import YOLO
model_path = 'pt/yolo12s.pt'
data_path = 'data.yaml'
if __name__ == '__main__':
    model = YOLO(model_path)
    results = model.train(data=data_path, epochs=500, batch=64, device='0', workers=0, project='runs', name='exp', ) 

YOLO 概述

YOLO 系列是 You Only Look Once 的缩写,是一种单阶段目标检测算法,以其速度和精度的平衡著称。

YOLOv8

YOLOv8 由 Ultralytics 于 2023 年 1 月 10 日发布,在准确性和速度方面提供了尖端性能。基于先前 YOLO 版本的进步,YOLOv8 引入了新功能和优化,使其成为各种应用中目标检测任务的理想选择。

YOLOv8 的主要特性

  • 高级骨干和颈部架构: YOLOv8 采用最先进的骨干和颈部架构,从而改进了特征提取和目标检测性能。
  • 无锚点分离式 Ultralytics Head: YOLOv8 采用无锚点分离式 Ultralytics head,与基于锚点的方法相比,这有助于提高准确性并提高检测效率。
  • 优化的准确性 - 速度权衡: YOLOv8 专注于在准确性和速度之间保持最佳平衡,适用于各种应用领域中的实时对象检测任务。
  • 丰富的预训练模型: YOLOv8 提供了一系列预训练模型,以满足各种任务和性能要求,使您更容易为特定用例找到合适的模型。
YOLOv10

YOLOv10 由清华大学研究人员基于 Ultralytics Python 构建,引入了一种新的实时目标检测方法,解决了先前 YOLO 版本中存在的后处理和模型架构缺陷。通过消除非极大值抑制 (NMS) 并优化各种模型组件,YOLOv10 以显著降低的计算开销实现了最先进的性能。大量实验表明,它在多个模型尺度上都具有卓越的精度 - 延迟权衡。

概述

实时目标检测旨在以低延迟准确预测图像中的对象类别和位置。YOLO 系列因其在性能和效率之间的平衡而一直处于这项研究的前沿。然而,对 NMS 的依赖和架构效率低下阻碍了最佳性能。YOLOv10 通过引入用于无 NMS 训练的一致双重分配和整体效率 - 准确性驱动的模型设计策略来解决这些问题。

架构

YOLOv10 的架构建立在之前 YOLO 模型优势的基础上,同时引入了几项关键创新。该模型架构由以下组件组成:

  1. 骨干网络:负责特征提取,YOLOv10 中的骨干网络使用增强版的 CSPNet (Cross Stage Partial Network),以改善梯度流并减少计算冗余。
  2. Neck:Neck 的设计目的是聚合来自不同尺度的特征,并将它们传递到 Head。它包括 PAN(路径聚合网络)层,用于有效的多尺度特征融合。
  3. One-to-Many Head:在训练期间为每个对象生成多个预测,以提供丰富的监督信号并提高学习准确性。
  4. 一对一头部:在推理时为每个对象生成一个最佳预测,以消除对 NMS 的需求,从而降低延迟并提高效率。

主要功能

  1. 免 NMS 训练:利用一致的双重分配来消除对 NMS 的需求,从而降低推理延迟。
  2. 整体模型设计:从效率和准确性的角度对各种组件进行全面优化,包括轻量级分类 Head、空间通道解耦下采样和秩引导块设计。
  3. 增强的模型功能: 结合了大内核卷积和部分自注意力模块,以提高性能,而无需显着的计算成本。
YOLOv11

YOLO11 是 Ultralytics YOLO 系列实时目标检测器的最新迭代版本,它以前沿的精度、速度和效率重新定义了可能性。YOLO11 在之前 YOLO 版本的显著进步基础上,在架构和训练方法上进行了重大改进,使其成为各种计算机视觉任务的多功能选择。

主要功能

  • 增强的特征提取: YOLO11 采用改进的 backbone 和 neck 架构,从而增强了特征提取能力,以实现更精确的目标检测和复杂的任务性能。
  • 优化效率和速度: YOLO11 引入了改进的架构设计和优化的训练流程,从而提供更快的处理速度,并在精度和性能之间保持最佳平衡。
  • 更高精度,更少参数: 随着模型设计的进步,YOLO11m 在 COCO 数据集上实现了更高的平均精度均值 (mAP),同时比 YOLOv8m 少用 22% 的参数,在不牺牲精度的情况下提高了计算效率。
  • 跨环境的适应性: YOLO11 可以无缝部署在各种环境中,包括边缘设备、云平台和支持 NVIDIA GPU 的系统,从而确保最大的灵活性。
  • 广泛支持的任务范围: 无论是目标检测、实例分割、图像分类、姿势估计还是旋转框检测 (OBB),YOLO11 都旨在满足各种计算机视觉挑战。

Ultralytics YOLO11 在其前代产品的基础上进行了多项重大改进。主要改进包括:

  • 增强的特征提取: YOLO11 采用了改进的骨干网络和颈部架构,增强了特征提取能力,从而实现更精确的目标检测。
  • 优化的效率和速度: 改进的架构设计和优化的训练流程提供了更快的处理速度,同时保持了准确性和性能之间的平衡。
  • 更高精度,更少参数: YOLO11m 在 COCO 数据集上实现了更高的平均精度均值 (mAP),同时比 YOLOv8m 少用 22% 的参数,在不牺牲精度的情况下提高了计算效率。
  • 跨环境的适应性: YOLO11 可以部署在各种环境中,包括边缘设备、云平台和支持 NVIDIA GPU 的系统。
  • 广泛支持的任务范围: YOLO11 支持各种计算机视觉任务,例如目标检测、实例分割、图像分类、姿势估计和旋转框检测 (OBB)。
YOLOv12

YOLO12 引入了一种以注意力为中心的架构,它不同于之前 YOLO 模型中使用的传统基于 CNN 的方法,但仍保持了许多应用所需的实时推理速度。该模型通过在注意力机制和整体网络架构方面的新颖方法创新,实现了最先进的目标检测精度,同时保持了实时性能。尽管有这些优势,YOLO12 仍然是一个社区驱动的版本,由于其沉重的注意力模块,可能表现出训练不稳定、内存消耗增加和 CPU 吞吐量较慢的问题,因此 Ultralytics 仍然建议将 YOLO11 用于大多数生产工作负载。

主要功能

  • 区域注意力机制: 一种新的自注意力方法,可以有效地处理大型感受野。它将特征图分成 l 个大小相等的区域(默认为 4 个),水平或垂直,避免复杂的运算并保持较大的有效感受野。与标准自注意力相比,这大大降低了计算成本。
  • 残差高效层聚合网络(R-ELAN):一种基于 ELAN 的改进的特征聚合模块,旨在解决优化挑战,尤其是在更大规模的以注意力为中心的模型中。R-ELAN 引入:
    • 具有缩放的块级残差连接(类似于层缩放)。
    • 一种重新设计的特征聚合方法,创建了一个类似瓶颈的结构。
  • 优化的注意力机制架构:YOLO12 精简了标准注意力机制,以提高效率并与 YOLO 框架兼容。这包括:
    • 使用 FlashAttention 来最大限度地减少内存访问开销。
    • 移除位置编码,以获得更简洁、更快速的模型。
    • 调整 MLP 比率(从典型的 4 调整到 1.2 或 2),以更好地平衡注意力和前馈层之间的计算。
    • 减少堆叠块的深度以改进优化。
    • 利用卷积运算(在适当的情况下)以提高其计算效率。
    • 在注意力机制中添加一个 7x7 可分离卷积('位置感知器'),以隐式地编码位置信息。
  • 全面的任务支持: YOLO12 支持一系列核心计算机视觉任务:目标检测、实例分割、图像分类、姿势估计和旋转框检测 (OBB)。
  • 增强的效率: 与许多先前的模型相比,以更少的参数实现了更高的准确率,从而证明了速度和准确率之间更好的平衡。
  • 灵活部署: 专为跨各种平台部署而设计,从边缘设备到云基础设施。

主要改进

  1. 增强的 特征提取:
    • 区域注意力: 有效处理大型感受野,降低计算成本。
    • 优化平衡: 改进了注意力和前馈网络计算之间的平衡。
    • R-ELAN:使用 R-ELAN 架构增强特征聚合。
  2. 优化创新:
    • 残差连接:引入具有缩放的残差连接以稳定训练,尤其是在较大的模型中。
    • 改进的特征集成:在 R-ELAN 中实现了一种改进的特征集成方法。
    • FlashAttention: 整合 FlashAttention 以减少内存访问开销。
  3. 架构效率:
    • 减少参数:与之前的许多模型相比,在保持或提高准确性的同时,实现了更低的参数计数。
    • 简化的注意力机制:使用简化的注意力实现,避免了位置编码。
    • 优化的 MLP 比率:调整 MLP 比率以更有效地分配计算资源。

前端代码展示

登录界面部分代码展示

<template>
  <div class="login-container">
    <!-- 交通粒子背景 -->
    <div class="traffic-background">
      <!-- 交通粒子 -->
      <div class="traffic-particles">
        <div v-for="n in 30" :key="`particle-${n}`" :style="getParticleStyle(n)">
          <div></div>
        </div>
      </div>
      <!-- 扫描波纹 -->
      <div class="scan-ripples">
        <div v-for="n in 8" :key="`ripple-${n}`" :style="getRippleStyle(n)"></div>
      </div>
      <!-- 检测点网格 -->
      <div class="detection-grid">
        <div v-for="n in 25" :key="`node-${n}`" :style="getNodeStyle(n)">
          <div></div>
        </div>
      </div>
      <!-- 交通符号云 -->
      <div class="traffic-cloud">
        <div v-for="n in 12" :key="`icon-${n}`" :style="getIconStyle(n)">
          {{ getRandomIcon() }}
        </div>
      </div>
      <!-- 激光扫描线 -->
      <div class="laser-scan">
        <div v-for="n in 6" :key="`laser-${n}`" :style="getLaserStyle(n)">
          <div></div>
        </div>
      </div>
    </div>
    <!-- 登录主容器 -->
    <div class="login-main">
      <!-- 检测界面容器 -->
      <div class="detection-container">
        <div class="system-brand">
          <h1><span>Traffic</span> <span>Detection</span></h1>
          <p>智能交通检测分析系统</p>
          <p>智慧城市 · 交通智能实验室</p>
        </div>
        <!-- 登录面板 -->
        <div>
          <el-form :model="ruleForm" :rules="registerRules" ref="ruleFormRef">
            <!-- 用户名输入 -->
            <el-form-item prop="username">
              <el-input v-model="ruleForm.username" placeholder="请输入系统访问 ID" size="large" />
            </el-form-item>
            <!-- 密码输入 -->
            <el-form-item prop="password">
              <el-input v-model="ruleForm.password" type="password" placeholder="请输入访问密钥" show-password size="large" />
            </el-form-item>
            <!-- 登录按钮 -->
            <el-form-item>
              <el-button type="primary" @click="submitForm(ruleFormRef)">启动交通检测</el-button>
            </el-form-item>
          </el-form>
          <div>
            <router-link to="/register">注册新账户</router-link>
          </div>
        </div>
      </div>
    </div>
  </div>
</template>

<script lang="ts" setup>
import { reactive, ref, computed } from 'vue';
import { ElMessage } from 'element-plus';
import Cookies from 'js-cookie';
import request from '/@/utils/request';

const ruleFormRef = ref();
const ruleForm = reactive({ username: '', password: '' });

const registerRules = reactive({
  username: [
    { required: true, message: '请输入系统访问 ID', trigger: 'blur' },
    { min: 3, max: 20, message: '长度在 3-20 个字符', trigger: 'blur' },
  ],
  password: [
    { required: true, message: '请输入访问密钥', trigger: 'blur' },
    { min: 5, max: 30, message: '长度在 5-30 个字符', trigger: 'blur' },
  ],
});

const submitForm = (formEl) => {
  if (!formEl) return;
  formEl.validate((valid) => {
    if (valid) {
      request.post('/api/user/login', ruleForm).then((res) => {
        if (res.code == 0) {
          Cookies.set('role', res.data.role);
          // 跳转逻辑
        } else {
          ElMessage({ type: 'error', message: res.msg });
        }
      });
    }
  });
};
</script>

<style scoped>
.login-container {
  min-height: 100vh;
  display: flex;
  align-items: center;
  justify-content: center;
  background: linear-gradient(135deg, #0a1929 0%, #112240 30%, #0d2847 70%, #0a1929 100%);
}
</style>

后端代码展示

后端基于 SpringBoot 构建,提供 RESTful API 接口,处理请求并调用 YOLO 模型服务。


注:本文档已清理所有第三方推广链接、视频演示链接及无关平台引流内容,仅保留核心技术说明。

目录

  1. 摘要
  2. 引言
  3. 研究背景与意义
  4. 国内外研究现状
  5. 本文研究内容与贡献
  6. 系统核心特性概述
  7. 功能模块
  8. 登录注册模块
  9. 可视化模块
  10. 图像检测模块
  11. 视频检测模块
  12. 实时检测模块
  13. 图片识别记录管理
  14. 视频识别记录管理
  15. 摄像头识别记录管理
  16. 用户管理模块
  17. 数据管理模块(MySQL 表设计)
  18. 模型训练结果
  19. YOLO 概述
  20. YOLOv8
  21. YOLOv10
  22. YOLOv11
  23. YOLOv12
  24. 主要改进
  25. 前端代码展示
  26. 后端代码展示
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Windows 10/11 下 WSL2 + Ubuntu 20.04 安装到 D 盘全流程指南
  • BinarySort 二叉排序算法实现
  • Qwen3.5-9B 对比 GPT-oss-120B:混合架构与基准测试全解析
  • 网络安全自学指南:从入门到就业的路径规划
  • Gemini 辅助影视分镜头脚本自动生成实战指南
  • VSCode Copilot 接入智谱 GLM-4.6 实战指南
  • libwebkit2gtk-4.1-0 安装失败时的备选库兼容性评估
  • 视频行为分析系统 v3:C++ 与 Python 混合架构智能分析方案
  • Dify 工作流集成 Sambert-Hifigan 语音合成 API 实现对话机器人
  • OpenCode:开源版 Claude Code 体验与配置指南
  • 法奥机器人 ROS2 开发环境搭建指南
  • AI 时代下的低代码复兴:开发民主化的新机遇
  • Ubuntu 环境下 JDK 1.8 环境变量配置指南
  • MySQL JDBC 编程基础
  • Git 提交信息规范:Conventional Commits 详解
  • 前端高频面试题:TypeScript 篇
  • ONLYOFFICE AI 功能详解与使用指南
  • C++ STL list 容器详解:使用与模拟实现
  • LeetCode 202 快乐数:快慢指针解法详解
  • 灵感画廊:基于 SDXL 的极简 AI 绘画工具体验

相关免费在线工具

  • Keycode 信息

    查找任何按下的键的javascript键代码、代码、位置和修饰符。 在线工具,Keycode 信息在线工具,online

  • Escape 与 Native 编解码

    JavaScript 字符串转义/反转义;Java 风格 \uXXXX(Native2Ascii)编码与解码。 在线工具,Escape 与 Native 编解码在线工具,online

  • JavaScript / HTML 格式化

    使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。 在线工具,JavaScript / HTML 格式化在线工具,online

  • JavaScript 压缩与混淆

    Terser 压缩、变量名混淆,或 javascript-obfuscator 高强度混淆(体积会增大)。 在线工具,JavaScript 压缩与混淆在线工具,online

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online