YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-time Object Detection

YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-time Object Detection

这篇文章的核心内容是介绍和分析了 Ultralytics YOLO26,这是 YOLO 系列目标检测模型的最新版本,专为实时边缘目标检测而设计。文章详细阐述了 YOLO26 的关键架构改进、性能基准测试以及与其他版本 YOLO 模型和基于变换器的检测器的比较。以下是文章的主要研究内容:

背景知识与研究动机

  • 目标检测的重要性:目标检测是计算机视觉中的一个关键任务,广泛应用于自动驾驶、机器人技术、监控、医学成像、农业和智能制造等领域。
  • YOLO 系列的发展:自 2016 年 YOLOv1 发布以来,YOLO 系列模型因其在实时目标检测中的高效性和准确性而受到广泛关注。YOLO26 是该系列的最新版本,旨在进一步提升效率、准确性和在边缘设备上的部署能力。

YOLO26 的关键架构改进

  • 移除分布焦点损失(DFL):DFL 虽然在早期模型中提高了准确性,但增加了计算开销和导出复杂性。YOLO26 通过移除 DFL,简化了边界框回归,提高了效率和跨平台兼容性。
  • 端到端无 NMS 推理:传统的 YOLO 模型依赖于非最大抑制(NMS)作为后处理步骤,这增加了延迟并需要手动调整超参数。YOLO26 实现了端到端的无 NMS 推理,直接输出最终检测结果,减少了延迟并简化了部署流程。
  • 渐进式损失平衡(ProgLoss)和小目标感知标签分配(STAL):这两种新策略提高了训练的稳定性和小目标的检测准确性。ProgLoss 动态调整损失权重,防止模型过度拟合于主导类别;STAL 优先为小目标分配标签,提高了在复杂环境下的检测性能。
  • MuSGD 优化器:结合了 SGD 和 Muon 优化器的优势,实现了更快、更稳定的收敛,提高了训练效率。

性能基准测试与比较分析

  • 与 YOLO 前代产品的比较:YOLO26 在准确性与速度之间取得了更好的平衡。与 YOLOv10、YOLOv11、YOLOv12 和 YOLOv13 相比,YOLO26 在保持高准确性的同时,显著降低了推理延迟,特别是在 CPU 上的推理速度提高了多达 43%。
  • 与基于变换器的检测器比较:YOLO26 在实时性能上优于基于变换器的检测器(如 RT-DETRv3),同时在准确性上与之相当。YOLO26 的无 NMS 设计和简化的架构使其在资源受限的环境中更具优势。
  • 跨行业应用:YOLO26 在机器人技术、制造业和物联网中的实际应用展示了其跨行业适应性。例如,在机器人技术中,YOLO26 提供了更快的感知能力;在制造业中,YOLO26 使得实时缺陷检测系统更加高效。

实时部署的优势

  • 灵活的导出和集成路径:YOLO26 支持多种导出格式,包括 TensorRT、ONNX、CoreML、TFLite 和 OpenVINO,使得模型能够轻松集成到不同的硬件和软件平台中。
  • 量化和资源受限设备:YOLO26 在半精度(FP16)和整数(INT8)量化下表现出色,显著降低了模型大小和能耗,同时保持了高准确性。这使得 YOLO26 特别适合在边缘设备和移动设备上部署。

结论与未来方向

  • YOLO26 的贡献:YOLO26 通过简化架构和提高部署效率,弥合了研究与实际应用之间的差距。它不仅在基准测试中表现出色,而且在实际部署中也展现了强大的性能。
  • 未来方向:未来的研究可能会集中在进一步统一多任务视觉模型、探索半监督和自监督学习、融合变换器和 CNN 设计原则,以及开发针对边缘设备优化的训练和优化策略。

文章通过详细的实验和分析,证明了 YOLO26 在实时目标检测中的优越性能和广泛的适用性,为未来的目标检测研究和应用提供了新的方向。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:

摘要

本研究对 Ultralytics YOLO26 进行了全面分析,强调了其在实时边缘目标检测中的关键架构改进和性能基准测试。YOLO26 于 2025 年 9 月发布,是 YOLO 系列最新且最先进的成员,旨在为边缘和低功耗设备提供效率、准确性和部署准备。文中依次详细介绍了 YOLO26 的架构创新,包括移除分布焦点损失(DFL)、采用端到端无 NMS 推理、集成 ProgLoss 和小目标感知标签分配(STAL)以及引入 MuSGD 优化器以实现稳定收敛。除架构外,研究将 YOLO26 定位为多任务框架,支持目标检测、实例分割、姿态/关键点估计、定向检测和分类。我们展示了 YOLO26 在 NVIDIA Jetson Nano 和 Orin 等边缘设备上的性能基准,将其结果与 YOLOv8、YOLOv11、YOLOv12、YOLOv13 和基于变换器的检测器进行了比较。本文还进一步探讨了实时部署路径、灵活的导出选项(ONNX、TensorRT、CoreML、TFLite)以及 INT8/FP16 量化。突出展示了 YOLO26 在机器人技术、制造业和物联网中的实际用例,以证明其跨行业适应性。最后,讨论了部署效率的见解和更广泛的影响,并提出了 YOLO26 和 YOLO 系列的未来发展方向。

关键词 YOLO26·边缘人工智能·多任务目标检测·无 NMS 推理·小目标识别·只看一次·目标检测·MuSGD 优化器

1 引言

目标检测已成为计算机视觉中最关键的任务之一,使机器能够定位和分类图像或视频流中的多个目标 [1,2]。从自动驾驶和机器人技术到监控、医学成像、农业和智能制造,实时目标检测算法是人工智能(AI)应用的支柱 [3,4]。在这些算法中,You Only Look Once(YOLO)系列已成为实时目标检测最有影响力的模型系列,结合了准确性与前所未有的推理速度 [5,6,7,7]。自 2016 年首次推出以来,YOLO 经历了多次架构修订,每次都在解决前代产品的局限性,同时整合了神经网络设计、损失函数和部署效率方面的最新进展 [5]。2025 年 9 月发布的 YOLO26 是这一进化轨迹上的最新里程碑,引入了架构简化、新优化器和针对低功耗设备的增强边缘部署能力。

表 1 提供了从 YOLOv1 到 YOLOv13 和 YOLO26 的 YOLO 模型的详细比较,突出了它们的发布年份、关键架构创新、性能提升和开发。

表 1:YOLOv1 到 YOLOv13 和 YOLO26 模型的总结:发布年份、架构、创新、框架

模型(年份)关键架构创新与贡献任务框架
YOLOv1(2015)[8]第一个统一的单阶段目标检测器(一个网络用于边界框 + 类别概率)。目标检测、分类Darknet
YOLOv2(2016)[9]引入多尺度训练;锚框尺寸聚类以改善先验框(YOLO9000 联合检测/分类)。目标检测、多尺度检测Darknet
YOLOv3(2018)[10]基于 Darknet-53 的更深骨干网络,带有残差连接;添加 SPP 模块和多尺度特征融合以检测小目标。目标检测、分类Darknet
YOLOv4(2020)[11]采用 Mish 激活函数;CSPDarknet-53 骨干网络(跨阶段部分网络)以增强特征重用。目标检测、目标跟踪Darknet
YOLOv5(2020)Ultralytics 的 PyTorch 实现;无锚点检测头选项;使用 SiLU(Swish)激活和 PANet 颈部进行特征聚合。目标检测、实例分割(有限)PyTorch(Ultralytics)
YOLOv6(2022)[12]带有嵌入自注意力的 EfficientRep 骨干网络;引入无锚点目标检测模式以提高效率。目标检测、实例分割PyTorch
YOLOv7(2022)[13]扩展的 ELAN(E-ELAN)骨干网络,带有模型重参数化;集成基于变换器的模块以处理更广泛的任务(例如跟踪)。目标检测、目标跟踪、实例分割PyTorch(Ultralytics)
YOLOv8(2023)Ultralytics 的下一代模型;新的 C2f 骨干网络和解耦头;整合生成技术(基于 GAN 的增强)和完全无锚点设计。目标检测、实例分割、全景分割、关键点估计PyTorch
YOLOv9(2024)[14]引入可编程梯度信息(PGI)以实现选择性学习;提出 G-ELAN(改进的 ELAN 架构)以改善特征提取。目标检测PyTorch
YOLOv10(2024)[15]通过一致的双重分配训练策略实现端到端无 NMS 检测(移除后处理)。目标检测PyTorch(Ultralytics)
YOLOv11(2024)在骨干网络/颈部中添加 C3k2 CSP 瓶颈(小核 CSP 块)以提高效率;保留 SPPF 并引入 C2PSA(带空间注意力的 CSP)模块以关注重要区域。扩展 YOLO 以处理姿态估计和定向目标检测任务。目标检测PyTorch
YOLOv12(2025)[16]以注意力为中心的架构:引入高效的区域注意力模块(低复杂度的全局自注意力)和残差 ELAN(R-ELAN)块以改善特征聚合,在 YOLO 速度下实现变换器级别的准确性。目标检测PyTorch
YOLOv13(2025)[17]基于超图的自适应相关性增强(HyperACE)模块以捕获全局高阶特征交互;全管道聚合 - 分布(FullPAD)方案以增强网络中的特征流;使用深度可分离卷积以降低复杂性。目标检测、实例分割、姿态估计、定向检测、分类PyTorch(Ultralytics)
YOLOv26(2025)Ultralytics 的边缘优化模型:用原生端到端预测器移除 NMS;移除 DFL(分布焦点损失)以实现更简单、更快的推理;引入 MuSGD 优化器(SGD + Muon 混合)以实现稳定且快速的收敛;显著提高小目标准确性,并在低功耗设备上部署时 CPU 推理速度提高多达 43%。目标检测、实例分割、姿态估计、定向检测、分类PyTorch(Ultralytics)

YOLO 框架最初由 Joseph Redmon 及其同事于 2016 年提出,为目标检测带来了范式转变 [8]。与传统的两阶段检测器(如 R-CNN [18] 和 Faster R-CNN [19])不同,这些检测器将区域提议与分类分开,YOLO 将检测表述为一个单一的回归问题 [20]。通过直接在一个卷积神经网络(CNN)的前向传递中预测边界框和类别概率,YOLO 实现了实时速度,同时保持了具有竞争力的准确性 [21,20]。这种效率使得 YOLOv1 在延迟是关键因素的应用中极具吸引力,包括机器人技术、自主导航和实时视频分析。随后的版本 YOLOv2(2017)[9] 和 YOLOv3(2018)[10] 在保持实时性能的同时显著提高了准确性。YOLOv2 引入了批量归一化、锚框和多尺度训练,这增加了对不同大小目标的鲁棒性。YOLOv3 基于 Darknet-53 的更深架构,以及多尺度特征图,用于更好的小目标检测。这些增强使得 YOLOv3 在学术和工业应用中成为数年的事实标准 [22,5]。

随着对更高准确性的需求增长,特别是在航空影像、农业和医学分析等具有挑战性的领域,YOLO 模型发展出更先进的架构。YOLOv4(2020)[11] 引入了跨阶段部分网络(CSPNet)、改进的激活函数(如 Mish)以及先进的训练策略,包括马赛克数据增强和 CIoU 损失。YOLOv5(Ultralytics,2020),虽然是非官方的,但由于其 PyTorch 实现、广泛的社区支持和在多样化平台上的简化部署而广受欢迎。YOLOv5 还带来了模块化,使其更容易适应分割、分类和边缘应用。进一步的发展包括 YOLOv6 [12] 和 YOLOv7 [13](2022),它们整合了先进的优化技术、参数高效的模块和受变换器启发的块。这些迭代将 YOLO 推近了最先进的(SoTA)准确性基准,同时保持了对实时推理的关注。到这一点,YOLO 生态系统已牢固确立为目标检测研究和开发中领先的模型家族。

Ultralytics,现代 YOLO 发布的主要维护者,在 2023 年重新定义了框架,推出了 YOLOv8 [24]。YOLOv8 特点是解耦的检测头、无锚点预测和改进的训练策略,从而在准确性和部署多功能性方面取得了显著改进 [25]。由于其干净的 Python API、与 TensorRT、CoreML 和 ONNX 的兼容性以及针对速度与准确性权衡的变体(nano、small、medium、large 和 extra-large),它在工业中得到了广泛采用。YOLOv9 [14]、YOLOv10 [15] 和 YOLOv11 相继迅速推出,每一代都推动了架构和性能的边界。YOLOv9 引入了 GELAN(广义高效层聚合网络)和渐进式蒸馏,结合了效率与更高的表示能力。YOLOv10 专注于通过混合任务对齐分配平衡准确性和推理延迟。YOLOv11 进一步完善了 Ultralytics 的愿景,在 GPU 上提供更高的效率,同时保持强大的小目标性能 [5]。这些模型共同巩固了 Ultralytics 生产针对现代部署量身定制的生产就绪 YOLO 发布的声誉。

在 YOLOv11 之后,替代版本 YOLOv12 [16] 和 YOLOv13 [17] 引入了以注意力为中心的设计和先进的架构组件,旨在最大化跨不同数据集的准确性。这些模型探索了多头自注意力、改进的多尺度融合和更强的训练正则化策略。尽管它们提供了强大的基准,但它们仍然依赖于非最大抑制(NMS)和分布焦点损失(DFL),这引入了延迟开销和导出挑战,特别是在低功耗设备上。NMS 基于后处理和复杂损失公式化的限制促使了 YOLO26(Ultralytics YOLO26 官方源链接)的开发。到 2025 年 9 月,在伦敦的 YOLO Vision 2025 活动上,Ultralytics 推出了 YOLO26,作为针对边缘计算、机器人技术和移动设备的下一代模型。

YOLO26 围绕三个指导原则构建:简单性、效率和创新,图 1 的概述将这些选择与它支持的五个任务并列:目标检测、实例分割、姿态/关键点检测、定向检测和分类。在推理路径上,YOLO26 移除了 NMS,产生原生端到端预测,消除了主要的后处理瓶颈,减少了延迟变化,并简化了跨部署的阈值调整。在回归方面,它移除了 DFL,将分布式的框解码转变为更轻量级、硬件友好的公式,干净地导出到 ONNX、TensorRT、CoreML 和 TFLite,这对于边缘和移动管道来说是一个实际的胜利。这些变化共同产生了一个更精简的图,更快的冷启动和更少的运行时依赖项,这对于 CPU 绑定和嵌入式场景特别有益。通过 ProgLoss(渐进式损失平衡)和 STAL(小目标感知标签分配)解决训练稳定性和小目标保真度。ProgLoss 自适应地重新加权目标,以防止在训练后期被简单示例主导,而 STAL 优先分配给微小或被遮挡的实例,提高了在常见的航空、机器人技术和智能相机馈送中的杂乱、植被或运动模糊条件下召回率。优化由 MuSGD 驱动,这是一种混合体,结合了 SGD 的泛化能力和受 Muon 风格方法启发的动量/曲率行为,实现了更快、更平稳的收敛和更可靠的平台,跨越了整个训练过程。

从功能上讲,如图 1 再次突出显示的那样,YOLO26 的五个能力共享统一的骨干/颈部和精简的头部:

  • 目标检测:无锚点、无 NMS 的框和分数
  • 实例分割:与共享特征耦合的轻量级掩码分支
  • 姿态/关键点检测:用于人类或部件地标的紧凑关键点头部
  • 定向检测:用于倾斜目标和细长目标的旋转框
  • 分类:用于纯识别的单标签逻辑值

这种整合设计允许多任务训练或特定任务的微调,无需架构重构,而简化的导出则保留了跨加速器的便携性。总之,YOLO26 通过将端到端推理和无 DFL 回归与 ProgLoss、STAL 和 MuSGD 结合起来,推进了 YOLO 系列的发展,产生了一个部署更快、训练更稳定且能力更广泛的模型,如图 1 所示。

2 YOLO26 的架构改进

YOLO26 的架构遵循一个为实时目标检测量身定制的精简且高效的流程,适用于边缘和服务器平台。如图 2 所示,流程从以图像或视频流形式输入数据开始,这些数据首先经过预处理操作,包括调整大小和归一化到适合模型推理的标准尺寸。然后将数据输入到骨干特征提取阶段,在这里,一个紧凑但强大的卷积网络捕获视觉模式的分层表示。为了增强跨尺度的鲁棒性,架构生成多尺度特征图(图 2),这些特征图保留了对大目标和小目标的语义丰富性。然后在轻量级特征融合颈部中合并这些特征图,以计算高效的方式整合信息。特定于检测的处理发生在直接回归头部,与之前的 YOLO 版本不同,该头部输出边界框和类别概率,无需依赖非最大抑制(NMS)。这种端到端的无 NMS 推理(图 2)消除了后处理开销,加速了部署。通过 ProgLoss 平衡和 STAL 分配模块增强了训练的稳定性和准确性,这些模块确保了损失项的公平加权,并改善了小目标的检测。模型优化由 MuSGD 优化器指导,结合了 SGD 和 Muon 的优势,实现了更快且更可靠的收敛。通过量化进一步增强了部署效率,支持 FP16 和 INT8 精度,从而在 CPU、NPU 和 GPU 上实现加速,同时最小化准确性损失。最后,管道以生成输出预测结束,包括可以叠加在输入图像上的边界框和类别分配。总体而言,YOLO26 的架构展示了一种精心平衡的设计理念,同时推进了准确性、稳定性和部署的简便性。

YOLO26 引入了几个关键的架构创新,使其与之前的 YOLO 模型代有所不同。这些改进不仅提高了训练的稳定性和推理效率,而且从根本上重塑了针对实时边缘设备的部署流程。在本节中,我们描述了 YOLO26 的四个主要贡献:(i)移除分布焦点损失(DFL),(ii)引入端到端无非最大抑制(NMS)推理,(iii)新的损失函数策略,包括渐进式损失平衡(ProgLoss)和小目标感知标签分配(STAL),以及(iv)开发用于稳定和高效收敛的 MuSGD 优化器。每个架构改进都详细讨论,并通过比较见解突出其相对于早期 YOLO 版本(如 YOLOv8、YOLOv11、YOLOv12 和 YOLOv13)的优势。

图 2:Ultralytics YOLO26 简化架构图

2.1 移除分布焦点损失(DFL)

YOLO26 中最显著的架构简化之一是移除了分布焦点损失(DFL)模块(图 3a),该模块曾在之前的 YOLO 发布中出现,如 YOLOv8 和 YOLOv11。DFL 最初旨在通过预测边界框坐标的概率分布来改进边界框回归,从而实现更精确的目标定位。尽管这种策略在早期模型中显示出准确性的提升,但它也引入了相当的计算开销和导出困难。实际上,DFL 在推理和模型导出期间需要特殊处理,这使得针对硬件加速器(如 ONNX、CoreML、TensorRT 或其他)的部署流程复杂化。

通过移除 DFL,YOLO26 简化了模型的架构,使边界框预测成为一个更直接的回归任务,而没有牺牲性能。比较分析表明,YOLO26 实现了与基于 DFL 的 YOLO 模型相当或更高的准确性,特别是当与其他创新(如 ProgLoss 和 STAL)结合时。此外,移除 DFL 显著减少了推理延迟,提高了跨平台兼容性。这使得 YOLO26 更适合于边缘人工智能场景,轻量级和硬件友好的模型是关键。

相比之下,YOLOv12 和 YOLOv13 在其架构中保留了 DFL,尽管在 GPU 富集环境中具有强大的准确性基准,但限制了它们在受限设备上的适用性。因此,YOLO26 标志着朝着将最先进的目标检测性能与移动、嵌入式和工业现实对齐迈出了决定性的一步。

图 3:YOLO26 的关键架构改进:(a)移除分布焦点损失(DFL)简化了边界框回归,提高了效率和导出兼容性。(b)端到端无 NMS 推理消除了后处理瓶颈,实现了更快、更简单的部署。(c)ProgLoss 和 STAL 增强了训练稳定性,并显著提高了小目标检测的准确性。(d)MuSGD 优化器结合了 SGD 和 Muon 的优势,实现了更快、更稳定的收敛。

2.2 端到端无 NMS 推理

YOLO26 的另一个开创性特性是其对端到端推理的原生支持,无需非最大抑制(NMS)(参见图 3b)。传统的 YOLO 模型,包括 YOLOv8 到 YOLOv13,严重依赖于 NMS 作为后处理步骤,通过保留置信度最高的边界框来过滤重复预测。虽然有效,但 NMS 为流程增加了额外的延迟,并且需要手动调整超参数,如交并比(IoU)阈值。这种对手工制作的后处理步骤的依赖在部署流程中引入了脆弱性,特别是对于边缘设备和对延迟敏感的应用。

YOLO26 从根本上重新设计了预测头部,以产生直接的、非冗余的边界框预测,无需 NMS。这种端到端的设计不仅减少了推理的复杂性,还消除了对手动调整阈值的依赖,从而简化了集成到生产系统中的过程。比较基准测试表明,YOLO26 实现了比 YOLOv11 和 YOLOv12 更快的推理速度,对于 nano 模型,CPU 推理时间减少了多达 43%。这使得 YOLO26 特别适合于移动设备、无人机和嵌入式机器人平台,在这些平台上,毫秒级的延迟可能具有实质性的操作影响。

除了速度之外,无 NMS 方法提高了可重复性和部署的可移植性,因为模型不再需要广泛的后处理代码。虽然其他先进的检测器(如 RT-DETR 和 Sparse R-CNN)已经尝试了无 NMS 推理,但 YOLO26 是第一个在保持 YOLO 标志性的速度与准确性平衡的同时采用这种范式的 YOLO 发布。与仍然依赖 NMS 的 YOLOv13 相比,YOLO26 的端到端管道作为一个面向未来的架构脱颖而出,适用于实时目标检测。

2.3 ProgLoss 和 STAL:增强的训练稳定性和小目标检测

训练稳定性和小目标识别一直是目标检测中的持续挑战。YOLO26 通过集成两种新策略来解决这些问题:渐进式损失平衡(ProgLoss)和小目标感知标签分配(STAL),如图(图 3c)所示。

ProgLoss 在训练期间动态调整不同损失组成部分的权重,确保模型不会过度拟合到主导目标类别,同时在稀有或小类别上表现不佳。这种渐进式重新平衡提高了泛化能力,并防止在训练的后期阶段出现不稳定性。另一方面,STAL 明确优先为小目标分配标签,这些目标由于像素表示有限且容易被遮挡,因此特别难以检测。一起,ProgLoss 和 STAL 为 YOLO26 在包含小目标或被遮挡目标的数据集上提供了显著的准确性提升,例如 COCO 和无人机影像。

相比之下,早期模型(如 YOLOv8 和 YOLOv11)没有整合这种针对性的机制,通常需要针对数据集特定的增强或外部训练技巧才能实现可接受的小目标性能。YOLOv12 和 YOLOv13 试图通过基于注意力的模块和增强的多尺度特征融合来解决这一差距;然而,这些解决方案增加了架构复杂性和推理成本。YOLO26 通过更轻量级的方法实现了类似的或更高的改进,加强了其作为边缘人工智能应用的适用性。通过整合 ProgLoss 和 STAL,YOLO26 确立了自己作为一个强大的小目标检测器,同时保持了 YOLO 的效率和便携性。

2.4 MuSGD 优化器用于稳定收敛

YOLO26 的最后一个创新是引入了 MuSGD 优化器(图 3d),它结合了随机梯度下降(SGD)的优势和最近提出的 Muon 优化器,这是一种受大型语言模型(LLM)训练策略启发的技术。MuSGD 利用了 SGD 的稳健性和泛化能力,同时整合了来自 Muon 的自适应特性,使得在多样化数据集上实现更快的收敛和更稳定的优化。

这种混合优化器反映了现代深度学习的一个重要趋势:自然语言处理(NLP)和计算机视觉之间的交叉融合。通过借鉴 LLM 训练实践(例如 Moonshot AI 的 Kimi K2),YOLO26 从 YOLO 系列中以前未探索的稳定性增强中受益。实证结果表明,MuSGD 使 YOLO26 能够以较少的训练周期达到具有竞争力的准确性,从而减少了训练时间和计算资源。

之前的 YOLO 版本,包括 YOLOv8 到 YOLOv13,依赖于标准的 SGD 或 AdamW 变体。虽然有效,但这些优化器需要广泛的超参数调整,并且有时在具有高变异性的数据集上表现出不稳定的收敛。相比之下,MuSGD 在保持 YOLO 轻量级训练理念的同时提高了可靠性。对于从业者来说,这意味着更短的开发周期、更少的训练重启以及在部署场景中更可预测的性能。通过整合 MuSGD,YOLO26 将自己定位为不仅是一个推理优化的模型,而且是一个对研究人员和行业从业者友好的训练架构。

3 基准测试与比较分析

在 YOLO26 的案例中,进行了一系列严格的基准测试,以评估其与 YOLO 前代产品和替代最先进的架构的性能对比。图 4 提供了这一评估的综合视图,绘制了在 NVIDIA T4 GPU 上使用 TensorRT FP16 优化时的 COCO mAP(50–95)与延迟(每张图像的毫秒数)。包括 YOLOv10、RT-DETR、RT-DETRv2、RT-DETRv3 和 DEIM 等竞争架构,提供了近期实时检测进展的全面景观。从图中可以看出,YOLO26 展示了一种独特的定位:它保持了与基于变换器的模型(如 RT-DETRv3)相媲美的高准确性水平,同时在推理速度上显著优于它们。例如,YOLO26-m 和 YOLO26-l 实现了超过 51% 和 53% 的竞争性 mAP 分数,但延迟显著降低,突出了其无 NMS 架构和轻量级回归的优势

这种准确性与速度之间的平衡对于边缘部署尤其相关,因为在保持实时吞吐量的同时确保可靠的检测质量至关重要。与 YOLOv10 相比,YOLO26 在模型规模上一致地实现了更低的延迟,对于 CPU 绑定的推理,速度提高了多达 43%,同时通过其 ProgLoss 和 STAL 机制保持或提高了准确性。与 DEIM 和 RT-DETR 系列相比,后者严重依赖于变换器编码器和解码器,YOLO26 的简化骨干网络和由 MuSGD 驱动的训练管道实现了更快的收敛和更精简的推理,同时没有损害小目标识别。图 4 中的图表清楚地说明了这些区别:尽管 RT-DETRv3 在大规模准确性基准测试中表现出色,但其延迟配置文件不如 YOLO26 有利,进一步强化了 YOLO26 的边缘中心设计理念。此外,基准测试分析突出了 YOLO26 在平衡准确性 - 延迟曲线方面的稳健性,使其成为适用于高吞吐量服务器应用和资源受限设备的多功能检测器。这一比较证据证实了 YOLO26 不仅仅是一个增量更新,而是 YOLO 系列中的一个范式转变,成功地弥合了早期 YOLO 模型的效率优先理念与基于变换器的检测器的准确性驱动取向之间的差距。最终,基准测试结果表明,YOLO26 提供了一个引人注目的部署优势,特别是在需要在严格的延迟约束下实现可靠性能的实际环境中。

4 YOLO26 的实时部署

在过去十年中,目标检测模型的演变不仅体现在准确性的提高,还体现在部署的复杂性增加 [26,27,28]。早期的检测器,如 R-CNN 及其更快的变体(Fast R-CNN、Faster R-CNN),实现了令人印象深刻的检测质量,但计算成本高昂,需要多个阶段进行区域提议和分类 [29,30,31]。这限制了它们在实时和嵌入式应用中的使用。YOLO 系列的出现改变了这一格局,通过将检测重新表述为一个单一的回归问题,实现了在普通 GPU 上的实时性能 [32]。然而,随着 YOLO 系列从 YOLOv1 发展到 YOLOv13,准确性提升往往以增加架构组件为代价,例如分布焦点损失(DFL)、复杂的后处理步骤(如非最大抑制,NMS)以及越来越沉重的骨干网络,这些都给部署带来了摩擦。YOLO26 直接解决了这一长期挑战,通过简化架构和导出路径,从而减少了跨多样化硬件和软件的部署障碍。

4.1 灵活的导出和集成路径

YOLO26 的一个关键优势是其能够无缝集成到现有的生产流程中。Ultralytics 维护一个积极开发的 Python 包,为训练、验证和导出提供统一支持,降低了从业者采用 YOLO26 的技术门槛。与早期的 YOLO 模型不同,这些模型需要大量的自定义转换脚本才能实现硬件加速 [33,34,35],YOLO26 原生支持广泛的导出格式。这些包括 TensorRT 以实现最大的 GPU 加速,ONNX 以实现广泛的跨平台兼容性,CoreML 以实现 iOS 的原生集成,TFLite 以实现 Android 和边缘设备的集成,以及 OpenVINO 以实现英特尔硬件上的优化性能。这些导出选项的广泛性使得研究人员、工程师和开发人员能够将模型从原型设计无缝转移到生产环境中,而不会遇到早期常见的兼容性瓶颈。

历史上,YOLOv3 到 YOLOv7 通常需要在导出到特定推理引擎(如 NVIDIA TensorRT 或 Apple CoreML)时进行手动干预 [36,37]。同样,基于变换器的检测器(如 DETR 及其后续版本)在转换到 PyTorch 环境外时也面临挑战,因为它们依赖于动态注意力机制。相比之下,YOLO26 的架构通过移除 DFL 和采用无 NMS 预测头部进行了简化,确保了跨平台的兼容性,而没有牺牲准确性。这使得 YOLO26 成为迄今为止最易于部署的检测器之一,进一步强化了其作为边缘优先的检测器的身份。

4.2 量化和资源受限设备

除了导出灵活性之外,实际部署中的真正挑战在于确保在计算资源有限的设备上的效率 [27,38]。边缘设备,如智能手机、无人机和嵌入式视觉系统,通常缺乏独立的 GPU,并且必须在内存、功耗和延迟约束之间取得平衡 [39,40]。量化是一种广泛采用的策略,用于减少模型大小和计算负载,但许多复杂的检测器在激进量化下会经历显著的准确性下降。YOLO26 在设计时就考虑到了这一限制。

由于其精简的架构和简化的边界框回归管道,YOLO26 在半精度(FP16)和整数(INT8)量化方案下表现出一致的准确性。FP16 量化利用了 GPU 对混合精度算术的原生支持,实现了更快的推理和减少的内存占用。INT8 量化将模型权重压缩为 8 位整数,显著减少了模型大小和能耗,同时保持了具有竞争力的准确性。基准实验确认,YOLO26 在这些量化水平下保持稳定,优于在相同条件下量化的 YOLOv11 和 YOLOv12。这使得 YOLO26 特别适合部署在紧凑型硬件上,如 NVIDIA Jetson Orin、Qualcomm Snapdragon AI 加速器,甚至是为智能设备提供动力的基于 ARM 的 CPU。相比之下,基于变换器的检测器(如 RT-DETRv3)在 INT8 量化下表现出性能的急剧下降 [41],主要是因为注意力机制对降低精度的敏感性。同样,YOLOv12 和 YOLOv13 虽然在 GPU 服务器上实现了强大的准确性,但在量化后在低功耗设备上难以保持竞争力。因此,YOLO26 为对象检测中的量化感知设计确立了一个新的基准,证明了架构简单性可以直接转化为部署优势。

4.3 跨行业应用:从机器人技术到制造业

这些部署增强功能的实际影响最好通过跨行业应用来说明。在机器人技术中,实时感知对于导航、操作和安全的人机协作至关重要 [42,43]。通过提供无 NMS 预测和一致的低延迟推理,YOLO26 允许机器人系统更快且更可靠地解释其环境。例如,配备 YOLO26 的机器人手臂可以在动态条件下更精确地识别和抓取物体,而移动机器人则受益于在杂乱空间中改进的障碍物识别。与 YOLOv8 或 YOLOv11 相比,YOLO26 提供了减少的推理延迟,这在高速操作中可能是安全机动与碰撞之间的区别。

在制造业中,YOLO26 对于自动化缺陷检测和质量保证具有重要意义。传统的手动检查不仅劳动密集型,而且容易出现人为错误。尽管之前的 YOLO 发布(特别是 YOLOv8)已经在智能工厂中得到部署,但导出的复杂性和 NMS 的延迟开销有时限制了大规模推广。YOLO26 通过提供通过 OpenVINO 或 TensorRT 的轻量级部署选项来缓解这些障碍,允许制造商直接在生产线中集成实时缺陷检测系统。早期基准测试表明,基于 YOLO26 的缺陷检测管道实现了比 YOLOv12 和基于变换器的替代方案(如 RT-DETRv3)更高的吞吐量和更低的运营成本。

4.4 YOLO26 部署的更广泛见解

总的来说,YOLO26 的部署特性强调了目标检测演变中的一个核心主题:架构效率与准确性同等重要。在过去五年中,从基于卷积的 YOLO 变体到基于变换器的检测器(如 DETR 和 RT-DETR),出现了越来越复杂的模型,但实验室性能与生产就绪性之间的差距往往限制了它们的影响。YOLO26 通过简化架构、扩展导出兼容性以及在量化下的弹性,弥合了这一差距,从而将最先进的准确性与实际部署对齐。

对于开发移动应用的开发者来说,YOLO26 通过 CoreML 和 TFLite 实现了无缝集成,确保模型能够在 iOS 和 Android 平台上本地运行。对于在云或本地服务器中部署视觉人工智能的企业来说,TensorRT 和 ONNX 导出提供了可扩展的加速选项。对于工业和边缘用户来说,OpenVINO 和 INT8 量化保证了即使在资源受限的情况下也能保持一致的性能。在这个意义上,YOLO26 不仅是目标检测研究的一个进步,而且是民主化人工智能的一个重要里程碑。

5 结论与未来方向

总之,YOLO26 是 YOLO 目标检测系列中的一个重要进步,将架构创新与对部署的务实关注相结合。该模型通过移除分布焦点损失(DFL)模块和消除非最大抑制的需求简化了其设计。通过移除 DFL,YOLO26 简化了边界框回归,避免了导出复杂性,从而扩大了与各种硬件的兼容性。同样,其端到端的无 NMS 推理使网络能够直接输出最终检测结果,无需后处理步骤。这不仅减少了延迟,还简化了部署流程,使 YOLO26 成为早期 YOLO 概念的自然演变。在训练中,YOLO26 引入了渐进式损失平衡(ProgLoss)和小目标感知标签分配(STAL),它们共同稳定了学习过程,并提高了在具有挑战性的小目标上的准确性。此外,一种新的 MuSGD 优化器结合了 SGD 和 Muon 的特性,加速了收敛并提高了训练稳定性。这些增强功能协同工作,提供了一个不仅更准确、更稳健,而且明显更快、更轻量级的检测器。

基准比较强调了 YOLO26 相对于其 YOLO 前代产品和当代模型的强大性能。早期的 YOLO 版本,如 YOLO11,在效率上超越了早期版本,而 YOLO12 通过整合注意力机制进一步扩展了准确性。YOLO13 增加了基于超图的改进以实现额外的改进。与基于变换器的竞争对手相比,YOLO26 大大地缩小了差距。其原生的无 NMS 设计反映了受变换器启发的检测器的端到端方法,但具有 YOLO 的标志性效率。YOLO26 在常见硬件上实现了竞争性准确性,同时显著提高了吞吐量并最小化了复杂性。实际上,YOLO26 的设计在 CPU 上的推理速度比之前的 YOLO 版本快了多达 43%,使其成为资源受限环境中最实用的实时检测器之一。这种性能与效率的和谐平衡使得 YOLO26 不仅在基准排行榜上表现出色,而且在实际现场部署中,速度、内存和能源都受到限制。

YOLO26 的一个重要贡献是其对部署优势的强调。该模型的架构经过精心优化,以供实际使用:通过省略 DFL 和 NMS,YOLO26 避免了在专用硬件加速器上难以实现的操作,从而提高了跨设备的兼容性。该网络可以导出到包括 ONNX、TensorRT、CoreML、TFLite 和 OpenVINO 在内的广泛格式,确保开发人员可以轻松地将其集成到移动应用、嵌入式系统或云服务中。至关重要的是,YOLO26 还支持强大的量化:它可以部署为 INT8 量化或半精度 FP16,对准确性的影响最小,这得益于其能够容忍低比特宽度推理的简化架构。这意味着模型可以在压缩和加速的同时仍然提供可靠的检测性能。这些特性转化为从无人机到智能相机的实际边缘性能提升,YOLO26 可以在 CPU 和小型设备上实时运行,而之前的 YOLO 模型在这方面存在困难。所有这些改进都表明了一个总体主题:YOLO26 桥接了尖端研究理念和可部署人工智能解决方案之间的差距。这种方法突出了 YOLO26 作为学术创新和行业应用之间的桥梁的角色,将最新的视觉进展直接带入从业者手中。

5.1 未来方向

展望未来,YOLO 和目标检测研究的轨迹表明了几个有希望的方向。一个明确的途径是将多个视觉任务统一到更全面的模型中。YOLO26 已经在一个框架中支持目标检测、实例分割、姿态估计、定向边界框和分类,反映了向多任务多功能性的趋势。未来的 YOLO 迭代可能会进一步推动这一趋势,通过整合开放词汇表和基础模型能力。这可能意味着利用强大的视觉 - 语言模型,使检测器能够以零样本的方式识别任意目标类别,而不受固定标签集的限制。通过建立在基础模型和大规模预训练之上,下一代 YOLO 可能成为一种通用视觉人工智能,能够无缝处理检测、分割以及对新目标的描述。

另一个关键演变可能是在目标检测中实现半监督和自监督学习 [44,45,46,47]。最先进的检测器仍然严重依赖于大型标记数据集,但研究正在迅速推进在未标记或部分标记数据上进行训练的方法。教师 - 学生训练 [48,49,50]、伪标记 [51,52] 和自监督特征学习 [53] 等技术可以整合到 YOLO 训练流程中,减少对广泛手动注释的需求。未来的 YOLO 可能会自动利用大量的未标记图像或视频来提高识别鲁棒性。通过这样做,该模型可以在不按比例增加标记数据的情况下继续提高其检测能力,使其更能适应新领域或罕见目标。

从架构角度来看,我们预计变换器和 CNN 设计原则将在目标检测器中继续融合。最近 YOLO 模型的成功表明,将注意力和全局推理注入 YOLO 类架构可以带来准确性提升 [54,55]。未来的 YOLO 架构可能会采用混合设计,将卷积骨干网络(用于高效的局部特征提取)与基于变换器的模块或解码器(用于捕获长距离依赖和上下文)结合起来。这种混合方法可以改善模型对复杂场景的理解,例如在拥挤或高度上下文环境中,通过建模纯 CNN 或简单自注意力可能遗漏的关系。我们预计下一代检测器将智能地融合这些技术,实现丰富的特征表示和低延迟。简而言之,CNN 基和变换器基检测器之间的界限将继续模糊,取两者之长以处理多样化的目标检测任务。

最后,由于部署仍然是一个关键关注点,未来的研究可能会强调边缘感知训练和优化。这意味着模型开发将从训练阶段开始就越来越多地考虑硬件约束,而不仅仅是事后考虑。例如,量化感知训练(模型在模拟低精度算术下进行训练)可以确保网络即使在量化为 INT8 以实现快速推理后仍保持准确。我们还可能看到神经架构搜索和自动模型压缩成为构建 YOLO 模型的标准做法,以便每个新版本都能与特定目标平台共同设计。此外,将部署反馈(例如设备上的延迟测量或能源使用)纳入训练循环是一个新兴的想法。例如,针对边缘优化的 YOLO 可以根据运行时约束动态调整其深度或分辨率,或者从一个较大的模型蒸馏到一个较小的模型,以最小的性能损失实现。通过这些考虑进行训练,最终的检测器将在实践中实现准确性和效率之间的优越权衡。这种对高效人工智能的专注至关重要,因为目标检测器正进入物联网、增强现实/虚拟现实和自主系统领域,这些领域需要在有限硬件上实现实时性能。

:本研究将在近期通过将 YOLO26 与 YOLOv13、YOLOv12 和 YOLOv11 进行基准测试来实验评估 YOLO26 的性能。将在农业环境中使用机器视觉相机收集自定义数据集,其中包含 10,000 多个手动标记的感兴趣目标。模型将在相同的条件下进行训练,结果将以精确度、召回率、准确性、F1 分数、mAP、推理速度以及预处理和后处理时间的形式报告。此外,将在 NVIDIA Jetson 上进行边缘计算实验,以评估实时检测能力,为 YOLO26 在资源受限的农业环境中的实际部署提供见解。

Read more

文心一言4.5开源模型测评:ERNIE-4.5-0.3B超轻量模型部署指南

文心一言4.5开源模型测评:ERNIE-4.5-0.3B超轻量模型部署指南

目录 * 引言:轻量化部署的时代突围 * 一.技术栈全景图:精准匹配的黄金组合 * 基础层:硬核环境支撑 * 框架层:深度优化套件 * 工具层:部署利器 * 二.详细步骤:精准匹配CUDA 12.6的黄金组合 * 准备环节 * 1.模型选择 * 2.配置实例 * 3.选择镜像 * 4.进入JupyterLab * 5.进入终端 * 6.连接到ssh * 系统基础依赖安装 * 1.更新源并安装核心依赖 * 2.安装 Python 3.12 和配套 pip * 解决 pip 报错 * 深度学习框架部署:PaddlePaddle-GPU深度调优 * FastDeploy-GPU企业级部署框架 * 1.安装FastDeploy核心组件 * 2.修复urllib3

By Ne0inhk
Windows 11 配置 CUDA 版 llama.cpp 并实现系统全局调用(GGUF 模型本地快速聊天)

Windows 11 配置 CUDA 版 llama.cpp 并实现系统全局调用(GGUF 模型本地快速聊天)

Windows 11 配置 CUDA 版 llama.cpp 并实现系统全局调用(GGUF 模型本地快速聊天) 前言 在本地快速部署大模型进行离线聊天,llama.cpp 是轻量化、高性能的首选工具,尤其是 CUDA 版本能充分利用 NVIDIA 显卡的算力,大幅提升模型推理速度。本文将详细记录在 Windows 11 系统中,从环境准备、CUDA 版 llama.cpp 配置,到实现系统全局调用、快速运行 GGUF 格式模型的完整步骤,全程基于实际操作验证,适配 RTX 3090 等 NVIDIA 显卡,新手也能轻松上手。 https://github.com/ggml-org/llama.cpp

By Ne0inhk
GitHub使用指南(保姆级教学)2025年12月15日版

GitHub使用指南(保姆级教学)2025年12月15日版

一、GitHub简介 GitHub是一项基于云的服务,为软件开发和Git版本控制提供Internet托管。这有助于开发人员存储和管理他们的代码,同时跟踪和控制对其代码的更改。 功能类别具体功能功能说明代码托管与版本控制    仓库(Repository)管理支持创建公共和私有代码仓库,用于存储代码、文档等资源,免费版可满足无限协作者的私有仓库需求。分支与合并管理    支持创建分支独立开发功能,可通过合并请求整合代码,还能设置分支保护规则,限制特定人员操作以保障代码安全。提交历史追踪    完整记录代码的每一次修改,包括修改人、时间、内容,支持版本回滚,可随时恢复到历史稳定版本。代码搜索与浏览支持按文件、目录、符号等维度在线搜索代码,界面直观,可快速定位和查看代码细节。团队协作相关Pull Request(PR)开发者完成代码修改后提交合并请求,期间可开展多轮讨论,待审核通过后再合并至主分支。代码评审支持在代码行级别添加评论,标注问题或建议,搭配 Code Owners 功能,确保关键代码变更经过对应负责人审核。Issues 跟踪用于记录和管理任务、漏洞、需求等,可分配负责人、

By Ne0inhk

VSCode + Copilot下:配置并使用 DeepSeek

以下是关于在 VSCode + Copilot 中,通过 OAI Compatible Provider for Copilot 插件配置并使用 DeepSeek 系列模型 (deepseek-chat, deepseek-reasoner, deepseek-coder) 的完整汇总指南。 🎯 核心目标 通过该插件,将支持 OpenAI API 格式的第三方大模型(此处为 DeepSeek)接入 VSCode 的官方 Copilot 聊天侧边栏,实现原生体验的调用。 📦 第一步:准备工作 在开始配置前,请确保已完成以下准备: 步骤操作说明1. 安装插件在 VSCode 扩展商店搜索并安装 OAI Compatible Provider for Copilot。这是连接 Copilot 与第三方模型的核心桥梁。2. 获取 API

By Ne0inhk