【论文翻译】YOLO26: KEY ARCHITECTURAL ENHANCEMENTS AND PERFORMANCE BENCHMARKING FOR REAL-TIME OBJECT DETEC
YOLO26:实时目标检测的关键架构改进与性能基准测试
摘要
本研究对Ultralytics YOLO26进行了全面分析,重点阐述了其在实时边缘目标检测领域的关键架构改进与性能基准测试结果。YOLO26于2025年9月发布,是YOLO系列中最新、最先进的模型,专为在边缘设备和低功耗设备上实现高效能、高精度和部署就绪性而设计。论文依次详细介绍了YOLO26的架构创新,包括移除分布焦点损失(DFL)、采用端到端无非极大值抑制(NMS)推理、集成渐进式损失(ProgLoss)和小目标感知标签分配(STAL),以及引入MuSGD优化器以实现稳定收敛。除架构外,该研究将YOLO26定位为多任务框架,支持目标检测、实例分割、姿态/关键点估计、旋转检测和分类任务。我们在NVIDIA Jetson Nano和Orin等边缘设备上对YOLO26进行了性能基准测试,并将其结果与YOLOv8、YOLOv11、YOLOv12、YOLOv13以及基于Transformer的检测器进行了对比。论文进一步探讨了实时部署路径、灵活的导出选项(ONNX、TensorRT、CoreML、TFLite)以及INT8/FP16量化方案。重点展示了YOLO26在机器人技术、制造业和物联网等领域的实际应用案例,以证明其跨行业适应性。最后,讨论了部署效率和更广泛的应用意义,并概述了YOLO26及YOLO系列的未来发展方向。
关键词:YOLO26·边缘人工智能·多任务目标检测·无NMS推理·小目标识别·你只看一次·目标检测·MuSGD优化器
1 引言
目标检测已成为计算机视觉领域最关键的任务之一,使机器能够在图像或视频流中定位和分类多个目标[1,2]。从自动驾驶、机器人技术到监控、医学成像、农业和智能制造,实时目标检测算法是人工智能(AI)应用的核心支柱[3,4]。在这些算法中,“你只看一次”(YOLO)系列已成为最具影响力的实时目标检测模型系列,兼具准确性和前所未有的推理速度[5,6,7]。自2016年推出以来,YOLO经过多次架构修订,每次都解决了前代模型的局限性,同时整合了神经网络设计、损失函数和部署效率方面的前沿进展[5]。2025年9月YOLO26的发布标志着这一进化历程的最新里程碑,引入了架构简化、新型优化器和增强的边缘部署能力,专为低功耗设备设计。
表1详细对比了从YOLOv1到YOLOv13以及YOLO26的模型,重点列出了它们的发布年份、关键架构创新、性能改进和开发框架。
表1:YOLOv1至YOLOv13及YOLO26模型摘要:发布年份、架构、创新点、框架
| 模型(年份) | 关键架构创新与贡献 | 任务 | 框架 |
|---|---|---|---|
| YOLOv1(2015)[8] | 首个统一的单阶段目标检测器(一个网络同时处理边界框和类别概率) | 目标检测、分类 | Darknet |
| YOLOv2(2016)[9] | 引入多尺度训练;通过锚框维度聚类优化先验框(YOLO9000联合检测/分类) | 目标检测、分类 | Darknet |
| YOLOv3(2018)[10] | 基于Darknet-53的深层骨干网络,带有残差连接;添加SPP模块和多尺度特征融合以提升小目标检测性能 | 多尺度目标检测 | Darknet |
| YOLOv4(2020)[11] | 采用Mish激活函数;CSPDarknet-53骨干网络(跨阶段部分网络)增强特征复用 | 目标检测、目标跟踪 | Darknet |
| YOLOv5(来源链接)(2020) | Ultralytics基于PyTorch的实现;支持无锚框检测头;采用SiLU(Swish)激活函数和PANet颈部进行特征聚合 | 目标检测、实例分割(有限支持) | PyTorch(Ultralytics) |
| YOLOv6(2022)[12] | 高效Rep骨干网络,嵌入自注意力机制;引入无锚框目标检测模式以提升效率 | 目标检测、实例分割 | PyTorch |
| YOLOv7(2022)[13] | 扩展ELAN(E-ELAN)骨干网络,采用模型重参数化;整合基于Transformer的模块以支持更广泛任务(如跟踪) | 目标检测、目标跟踪、实例分割 | PyTorch |
| YOLOv8(2023)(来源链接) | Ultralytics下一代模型;全新C2f骨干网络和解耦头;整合生成式技术(基于GAN的增强)和全无锚框设计 | 目标检测、实例分割、全景分割、关键点估计 | PyTorch(Ultralytics) |
| YOLOv9(2024)[14] | 引入可编程梯度信息(PGI)用于选择性学习;提出G-ELAN(增强型ELAN架构)以改进特征提取 | 目标检测、实例分割 | PyTorch |
| YOLOv10(2024)[15] | 通过一致的双分配训练策略实现端到端无NMS检测(移除后处理步骤) | 目标检测 | PyTorch |
| YOLOv11(2024)(来源链接) | 在骨干网络/颈部全程添加C3k2 CSP瓶颈(小核CSP块)以提升效率;保留SPPF并引入C2PSA(带空间注意力的CSP)模块以聚焦重要区域;将YOLO扩展至姿态估计和旋转目标检测任务 | 目标检测、实例分割、姿态估计、旋转检测 | PyTorch(Ultralytics) |
| YOLOv12[16](2025) | 注意力中心架构:引入高效区域注意力模块(低复杂度全局自注意力)和残差ELAN(R-ELAN)块以改进特征聚合,在YOLO速度下实现Transformer级别的准确性 | 目标检测 | PyTorch |
| YOLOv13[17](2025) | 基于超图的自适应关联增强(HyperACE)模块以捕获全局高阶特征交互;全流程聚合-分布(FullPAD)方案增强网络中的特征流动;采用深度可分离卷积降低复杂度 | 目标检测 | PyTorch |
| YOLO26(2025)(来源链接) | Ultralytics边缘优化模型:通过原生端到端预测器消除NMS;移除分布焦点损失(DFL)以实现更简单、更快的推理;引入MuSGD优化器(SGD+Muon混合)实现稳定快速收敛;显著提升小目标检测精度,CPU推理速度最高提升43%,适用于低功耗设备部署 | 目标检测、实例分割、姿态估计、旋转检测、分类 | PyTorch(Ultralytics) |
YOLO框架由约瑟夫·雷蒙德及其同事于2016年首次提出,开创了目标检测领域的范式转变[8]。与R-CNN[18]和Faster R-CNN[19]等传统两阶段检测器不同(这些检测器将区域提议与分类分离),YOLO将检测问题表述为单一回归任务[20]。通过在卷积神经网络(CNN)的一次前向传播中直接预测边界框和类别概率,YOLO在保持竞争力准确性的同时实现了实时速度[21,20]。这种高效性使得YOLOv1在延迟至关重要的应用中极具吸引力,包括机器人技术、自主导航和实时视频分析。后续版本YOLOv2(2017)[9]和YOLOv3(2018)[10]在保留实时性能的同时显著提升了准确性。YOLOv2引入了批量归一化、锚框和多尺度训练,增强了对不同目标尺寸的鲁棒性。YOLOv3采用了基于Darknet-53的更深层架构,以及多尺度特征图以改进小目标检测。这些改进使YOLOv3在数年内成为学术和工业应用的事实标准[22,5,23]。
随着对更高准确性的需求不断增长,尤其是在航空影像、农业和医学分析等具有挑战性的领域,YOLO模型向更先进的架构方向发展。YOLOv4(2020)[11]引入了跨阶段部分网络(CSPNet)、改进的激活函数(如Mish)以及先进的训练策略(包括马赛克数据增强和CIoU损失)。YOLOv5(Ultralytics,2020)虽非官方版本,但由于其PyTorch实现、广泛的社区支持以及在多种平台上的简化部署,获得了极大的普及。YOLOv5还带来了模块化特性,使其更易于适配分割、分类和边缘应用。进一步的发展包括YOLOv6[12]和YOLOv7[13](2022),它们整合了先进的优化技术、参数高效模块和受Transformer启发的块。这些迭代使YOLO更接近最先进(SoTA)的准确性基准,同时保持对实时推理的关注。至此,YOLO生态系统已牢固确立了其在目标检测研究和部署中的领先模型家族地位。
作为现代YOLO版本的主要维护者,Ultralytics通过YOLOv8(2023)[24]重新定义了该框架。YOLOv8具有解耦检测头、无锚框预测和优化的训练策略,在准确性和部署灵活性方面均取得了显著改进[25]。由于其简洁的Python API、与TensorRT、CoreML和ONNX的兼容性,以及针对速度与准确性权衡优化的变体(nano、small、medium、large和extra-large),它在工业界被广泛采用。YOLOv9[14]、YOLOv10[15]和YOLOv11紧随其后,每次迭代都突破了架构和性能的边界。YOLOv9引入了GELAN(通用高效层聚合网络)和渐进式蒸馏,结合了高效性和更高的表征能力。YOLOv10专注于通过混合任务对齐分配来平衡准确性和推理延迟。YOLOv11进一步完善了Ultralytics的愿景,在GPU上提供了更高的效率,同时保持了强大的小目标检测性能[5]。这些模型共同巩固了Ultralytics在生产就绪型YOLO版本开发方面的声誉,这些版本专为现代部署流程量身定制。
在YOLOv11之后,替代版本YOLOv12[16]和YOLOv13[17]引入了以注意力为中心的设计和先进的架构组件,旨在最大化不同数据集的准确性。这些模型探索了多头自注意力、改进的多尺度融合和更强的训练正则化策略。尽管它们提供了出色的基准测试结果,但仍依赖于非极大值抑制(NMS)和分布焦点损失(DFL),这带来了延迟开销和导出挑战,尤其是对于低功耗设备。基于NMS的后处理和复杂损失公式的局限性推动了YOLO26的开发(Ultralytics YOLO26官方来源)。2025年9月,在伦敦举行的YOLO Vision 2025活动上,Ultralytics推出了YOLO26,将其作为专为边缘计算、机器人技术和移动AI优化的下一代模型。
YOLO26围绕三个指导原则设计:简洁性、高效性和创新性,图1概述了这些设计选择及其支持的五项任务:目标检测、实例分割、姿态/关键点检测、旋转检测和分类。在推理路径上,YOLO26消除了NMS,生成原生端到端预测,消除了主要的后处理瓶颈,减少了延迟差异,并简化了跨部署的阈值调优。在回归方面,它移除了DFL,将分布式框解码转变为更轻量化、硬件友好的公式,可顺利导出至ONNX、TensorRT、CoreML和TFLite——这对于边缘和移动流程来说是一项实际优势。这些变化共同打造了更精简的计算图、更快的冷启动速度和更少的运行时依赖,这对于CPU受限和嵌入式场景尤其有利。通过ProgLoss(渐进式损失平衡)和STAL(小目标感知标签分配)解决了训练稳定性和小目标保真度问题。ProgLoss自适应地重新加权目标,以防止训练后期简单样本占主导地位,而STAL优先考虑微小或遮挡实例的标签分配,在航空、机器人和智能相机馈送中常见的杂乱、 foliage 或运动模糊条件下提高召回率。优化由MuSGD驱动,这是一种混合优化器,融合了SGD的泛化能力与受Muon风格方法启发的动量/曲率特性,实现了更快、更平滑的收敛以及跨尺度更可靠的平台期。
功能上,如图1再次强调的,YOLO26的五项能力共享统一的骨干网络/颈部和简化的头部:
- 目标检测:无锚框、无NMS的边界框和分数
- 实例分割:轻量级掩码分支与共享特征耦合
- 姿态/关键点检测:用于人体或部件标志点的紧凑关键点头部
- 旋转检测:用于倾斜物体和细长目标的旋转边界框
- 分类:用于纯识别任务的单标签对数
这种整合设计允许多任务训练或特定任务微调,而无需架构重构,同时简化的导出保留了跨加速器的可移植性。总之,YOLO26通过将端到端推理和无DFL回归与ProgLoss、STAL和MuSGD相结合,推进了YOLO系列,打造了一个部署更快、训练更稳定、功能更广泛的模型,如图1的可视化总结所示。
图1:YOLO26统一架构支持五项关键视觉任务——目标检测、实例分割、姿态/关键点检测、旋转检测和分类。
2 YOLO26的架构改进
YOLO26的架构遵循精简高效的流程,专为边缘和服务器平台的实时目标检测而设计。如图2所示,流程始于输入数据(图像或视频流)的摄入,首先通过预处理操作(包括调整大小和归一化)将其转换为适合模型推理的标准维度。然后,数据被送入骨干特征提取阶段,其中紧凑而强大的卷积网络捕获视觉模式的层次化表征。为了增强跨尺度的鲁棒性,该架构生成多尺度特征图(图2),为大型和小型目标保留语义丰富性。这些特征图随后在轻量级特征融合颈部中合并,以计算高效的方式整合信息。特定于检测的处理在直接回归头部中进行,与之前的YOLO版本不同,该头部无需依赖非极大值抑制(NMS)即可输出边界框和类别概率。这种端到端无NMS推理(图2)消除了后处理开销并加速了部署。ProgLoss平衡和STAL分配模块增强了训练稳定性和准确性,确保损失项的均衡加权和小目标检测的改进。模型优化由MuSGD优化器指导,结合了SGD和Muon的优势,实现更快、更可靠的收敛。通过支持FP16和INT8精度的量化进一步提升了部署效率,使CPU、NPU和GPU能够在最小精度损失的情况下实现加速。最后,流程生成输出预测,包括可叠加在输入图像上可视化的边界框和类别分配。总体而言,YOLO26的架构展示了精心平衡的设计理念,同时提升了准确性、稳定性和部署简便性。
YOLO26引入了多项关键架构创新,使其区别于前几代YOLO模型。这些改进不仅提高了训练稳定性和推理效率,还从根本上重塑了实时边缘设备的部署流程。本节将详细描述YOLO26的四大主要贡献:(i)移除分布焦点损失(DFL);(ii)引入端到端无NMS推理;(iii)包括渐进式损失平衡(ProgLoss)和小目标感知标签分配(STAL)在内的新型损失函数策略;(iv)开发用于稳定高效收敛的MuSGD优化器。将详细讨论每项架构改进,并通过对比分析突出其相较于YOLOv8、YOLOv11、YOLOv12和YOLOv13等早期YOLO版本的优势。
图2:Ultralytics YOLO26的简化架构图
2.1 移除分布焦点损失(DFL)
YOLO26中最显著的架构简化之一是移除了分布焦点损失(DFL)模块(图3a),该模块在YOLOv8和YOLOv11等之前的YOLO版本中存在。DFL最初设计用于通过预测框坐标的概率分布来改进边界框回归,从而实现更精确的目标定位。尽管该策略在早期模型中展示了准确性提升,但也带来了不小的计算开销和导出困难。实际上,DFL在推理和模型导出过程中需要专门处理,这使得针对ONNX、CoreML、TensorRT或TFLite等硬件加速器的部署流程变得复杂。
通过消除DFL,YOLO26简化了模型架构,使边界框预测成为更直接的回归任务,同时不牺牲性能。对比分析表明,YOLO26实现了与基于DFL的YOLO模型相当或更优的准确性,尤其是在与ProgLoss和STAL等其他创新结合使用时。此外,移除DFL显著降低了推理延迟并提高了跨平台兼容性。这使得YOLO26更适合边缘人工智能场景,在这些场景中,轻量化和硬件友好型模型至关重要。
相比之下,YOLOv12和YOLOv13等模型在其架构中保留了DFL,尽管它们在GPU资源丰富的环境中具有出色的准确性基准,但限制了其在受限设备上的适用性。因此,YOLO26标志着朝着使最先进的目标检测性能与移动、嵌入式和工业应用实际情况对齐的决定性一步。
2.2 端到端无NMS推理
YOLO26的另一项突破性特征是其对无NMS(非极大值抑制)端到端推理的原生支持(参见图3b)。包括YOLOv8至YOLOv13在内的传统YOLO模型严重依赖NMS作为后处理步骤,通过仅保留置信度分数最高的边界框来过滤重复预测。尽管有效,但NMS增加了流程的额外延迟,并且需要手动调整的超参数(如交并比(IoU)阈值)。这种对手工设计后处理步骤的依赖导致部署流程的脆弱性,尤其是对于边缘设备和对延迟敏感的应用。
YOLO26从根本上重新设计了预测头,能够直接生成非冗余的边界框预测,无需NMS。这种端到端设计不仅降低了推理复杂度,还消除了对手动调整阈值的依赖,从而简化了与生产系统的集成。对比基准测试表明,YOLO26实现了比YOLOv11和YOLOv12更快的推理速度,nano模型的CPU推理时间减少了高达43%。这使得YOLO26特别适合移动设备、无人机和嵌入式机器人平台,在这些平台上,毫秒级的延迟可能会对操作产生重大影响。
除速度外,无NMS方法还提高了可重复性和部署可移植性,因为模型不再需要大量的后处理代码。尽管RT-DETR和Sparse R-CNN等其他先进检测器已尝试无NMS推理,但YOLO26是首个采用这种范式的YOLO版本,同时保持了YOLO标志性的速度与准确性平衡。与仍依赖NMS的YOLOv13相比,YOLO26的端到端流程是实时检测的前瞻性架构。
图3:YOLO26的关键架构改进:(a) 移除分布焦点损失(DFL)简化了边界框回归,提高了效率和导出兼容性;(b) 端到端无NMS推理消除了后处理瓶颈,实现更快、更简单的部署;© ProgLoss和STAL增强了训练稳定性,并显著提高了小目标检测准确性;(d) MuSGD优化器结合了SGD和Muon的优势,实现了更快、更稳定的训练收敛。
2.3 ProgLoss和STAL:增强训练稳定性和小目标检测
训练稳定性和小目标识别仍然是目标检测中的长期挑战。YOLO26通过整合两种新型策略解决了这些问题:渐进式损失平衡(ProgLoss)和小目标感知标签分配(STAL),如图3c所示。
ProgLoss在训练过程中动态调整不同损失组件的权重,确保模型不会过度拟合主导目标类别,同时在稀有或小型类别上表现不佳。这种渐进式重新平衡提高了泛化能力,并防止了训练后期epoch的不稳定性。另一方面,STAL明确优先考虑小目标的标签分配,由于小目标的像素表征有限且易受遮挡影响,其检测难度特别大。ProgLoss和STAL共同为YOLO26在包含小型或遮挡目标的数据集(如COCO和无人机影像基准)上提供了显著的准确性提升。
相比之下,YOLOv8和YOLOv11等早期模型没有纳入此类针对性机制,通常需要特定于数据集的增强或外部训练技巧才能实现可接受的小目标性能。YOLOv12和YOLOv13尝试通过基于注意力的模块和增强的多尺度特征融合来弥补这一差距;然而,这些解决方案增加了架构复杂性和推理成本。YOLO26通过更轻量化的方法实现了类似或更优的改进,强化了其对边缘AI应用的适用性。通过整合ProgLoss和STAL,YOLO26确立了其作为强大的小目标检测器的地位,同时保持了YOLO家族的高效性和可移植性。
2.4 用于稳定收敛的MuSGD优化器
YOLO26的最后一项创新是引入了MuSGD优化器(图3d),它结合了随机梯度下降(SGD)的优势与最近提出的Muon优化器——一种受大型语言模型(LLM)训练中使用的优化策略启发的技术。MuSGD利用了SGD的鲁棒性和泛化能力,同时融合了Muon的自适应特性,实现了更快的收敛和跨不同数据集的更稳定优化。
这种混合优化器反映了现代深度学习的一个重要趋势:自然语言处理(NLP)和计算机视觉之间的技术交叉融合。通过借鉴LLM训练实践(例如Moonshot AI的Kimi K2),YOLO26受益于之前在YOLO系列中未探索过的稳定性增强。实证结果表明,MuSGD使YOLO26能够用更少的训练epoch达到具有竞争力的准确性,从而减少了训练时间和计算成本。
包括YOLOv8至YOLOv13在内的之前的YOLO版本依赖于标准SGD或AdamW变体。尽管有效,但这些优化器需要大量的超参数调优,并且有时会表现出不稳定的收敛,尤其是在变异性高的数据集上。相比之下,MuSGD在保持YOLO轻量化训练理念的同时提高了可靠性。对于实践者而言,这意味着更短的开发周期、更少的训练重启以及跨部署场景更可预测的性能。通过整合MuSGD,YOLO26不仅定位为推理优化模型,还成为研究人员和工业实践者友好的训练架构。
3 基准测试与对比分析
针对YOLO26,我们进行了一系列严格的基准测试,以评估其相较于YOLO前代模型和其他最先进架构的性能。图4综合展示了该评估结果,在配备TensorRT FP16优化的NVIDIA T4 GPU上绘制了COCO mAP(50-95)与延迟(每幅图像毫秒数)的关系。纳入了YOLOv10、RT-DETR、RT-DETRv2、RT-DETRv3和DEIM等竞争架构,全面呈现了实时检测领域的最新进展。从图中可以看出,YOLO26展现出独特的定位:它保持了与RT-DETRv3等基于Transformer的模型相当的高准确性,同时在推理速度方面显著优于它们。例如,YOLO26-m和YOLO26-l分别实现了51%和53%以上的竞争性mAP分数,但延迟大幅降低,突显了其无NMS架构和轻量化回归头的优势。
这种准确性与速度之间的平衡对于边缘部署尤为重要,在边缘部署中,保持实时吞吐量与确保可靠的检测质量同等重要。与YOLOv10相比,YOLO26在所有模型尺度上均实现了更低的延迟,CPU受限推理的速度提升高达43%,同时通过其ProgLoss和STAL机制保持或提高了准确性。与严重依赖Transformer编码器和解码器的DEIM和RT-DETR系列相比,YOLO26简化的骨干网络和MuSGD驱动的训练流程实现了更快的收敛和更精简的推理,同时不影响小目标识别。图4中的图表清楚地说明了这些差异:尽管RT-DETRv3在大规模准确性基准测试中表现出色,但其延迟分布仍不如YOLO26,这强化了YOLO26以边缘为中心的设计理念。此外,基准测试分析突显了YOLO26在平衡准确性-延迟曲线方面的鲁棒性,使其成为适用于高吞吐量服务器应用和资源受限设备的多功能检测器。这些对比证据证实了YOLO26不仅仅是增量更新,而是YOLO系列的范式转变,成功弥合了早期YOLO模型效率优先理念与基于Transformer的检测器准确性驱动导向之间的差距。最终,基准测试结果表明,YOLO26提供了令人信服的部署优势,尤其是在需要在严格延迟约束下实现可靠性能的实际环境中。
图4:YOLO26与YOLOv10、RT-DETR、RT-DETRv2、RT-DETRv3和DEIM在COCO数据集上的性能基准测试。该图展示了在NVIDIA T4 GPU上使用TensorRT FP16推理测量的COCO mAP(50-95)与延迟(每幅图像毫秒数)的关系。YOLO26展示了卓越的准确性和效率平衡,在实现竞争性检测性能的同时显著降低了延迟,从而突显了其对实时边缘和资源受限部署的适用性。
4 Ultralytics YOLO26的实时部署
在过去十年中,目标检测模型的发展不仅以准确性的提高为标志,还以部署复杂性的增加为特征[26,27,28]。R-CNN及其更快的变体(Fast R-CNN、Faster R-CNN)等早期检测器实现了令人印象深刻的检测质量,但计算成本高昂,需要多个阶段进行区域提议和分类[29,30,31]。这限制了它们在实时和嵌入式应用中的使用。YOLO家族的出现通过将检测重新定义为单一回归问题,改变了这一格局,使在商用GPU上实现实时性能成为可能[32]。然而,随着YOLO系列从YOLOv1发展到YOLOv13,准确性的提高往往伴随着额外的架构组件(如分布焦点损失(DFL))、复杂的后处理步骤(如非极大值抑制(NMS))以及日益沉重的骨干网络,这些都给部署带来了困难。YOLO26通过简化架构和导出路径,直接解决了这一长期存在的挑战,从而减少了跨不同硬件和软件生态系统的部署障碍。
4.1 灵活的导出和集成路径
YOLO26的一个关键优势是其与现有生产流程的无缝集成。Ultralytics维护着一个积极开发的Python包,提供统一的训练、验证和导出支持,降低了实践者采用YOLO26的技术门槛。与需要大量自定义转换脚本进行硬件加速的早期YOLO模型不同[33,34,35],YOLO26原生支持多种导出格式。这些格式包括用于最大GPU加速的TensorRT、用于广泛跨平台兼容性的ONNX、用于原生iOS集成的CoreML、用于Android和边缘设备的TFLite,以及用于Intel硬件优化性能的OpenVINO。这些导出选项的广度使研究人员、工程师和开发人员能够将模型从原型设计阶段推进到生产阶段,而不会遇到前几代模型常见的兼容性瓶颈。
历史上,YOLOv3至YOLOv7在导出过程中经常需要手动干预,尤其是在针对NVIDIA TensorRT或Apple CoreML等专用推理引擎时[36,37]。同样,DETR及其后继者等基于Transformer的检测器由于依赖动态注意力机制,在PyTorch环境之外转换时面临挑战。相比之下,YOLO26的架构通过移除DFL和采用无NMS预测头得到了简化,确保了跨平台兼容性,同时不牺牲准确性。这使得YOLO26成为迄今为止最易于部署的检测器之一,强化了其边缘优先模型的定位。
4.2 量化与资源受限设备
除了导出灵活性外,实际部署中的真正挑战在于确保在计算资源有限的设备上的效率[27,38]。智能手机、无人机和嵌入式视觉系统等边缘设备通常缺乏独立GPU,必须平衡内存、功耗和延迟约束[39,40]。量化是一种广泛采用的策略,用于减小模型大小和计算负载,然而许多复杂检测器在激进量化下会经历显著的准确性下降。YOLO26的设计考虑到了这一限制。
由于其精简的架构和简化的边界框回归流程,YOLO26在半精度(FP16)和整数(INT8)量化方案下均表现出稳定的准确性。FP16量化利用了GPU对混合精度算术的原生支持,实现了更快的推理和更小的内存占用。INT8量化将模型权重压缩为8位整数,在保持竞争性准确性的同时大幅降低了模型大小和能耗。基准测试实验证实,YOLO26在这些量化级别上保持稳定,在相同条件下优于YOLOv11和YOLOv12。这使得YOLO26特别适合部署在紧凑的硬件上,如NVIDIA Jetson Orin、高通骁龙AI加速器,甚至是驱动智能相机的基于ARM的CPU。
相比之下,RT-DETRv3等基于Transformer的检测器在INT8量化下表现出显著的性能下降[41],这主要是由于注意力机制对精度降低的敏感性。同样,YOLOv12和YOLOv13虽然在GPU服务器上提供了强大的准确性,但一旦量化,在低功耗设备上难以保持竞争性性能。因此,YOLO26为目标检测中的量化感知设计树立了新的基准,表明架构简洁性可以直接转化为部署鲁棒性。
4.3 跨行业应用:从机器人技术到制造业
这些部署增强的实际影响通过跨行业应用得到了最好的体现。在机器人技术中,实时感知对于导航、操作和安全的人机协作至关重要[42,43]。通过提供无NMS预测和一致的低延迟推理,YOLO26使机器人系统能够更快、更可靠地解释其环境。例如,配备YOLO26的机械臂可以在动态条件下更精确地识别和抓取物体,而移动机器人则受益于在杂乱空间中改进的障碍物识别。与YOLOv8或YOLOv11相比,YOLO26提供了更低的推理延迟,这在高速场景中可能是安全操作与碰撞之间的关键差异。
在制造业中,YOLO26对自动化缺陷检测和质量保证具有重要意义。传统的人工检测不仅劳动密集型,而且容易出现人为错误。之前的YOLO版本(尤其是YOLOv8)已经部署在智能工厂中;然而,导出的复杂性和NMS的延迟开销有时限制了大规模推广。YOLO26通过OpenVINO或TensorRT提供轻量化部署选项,缓解了这些障碍,使制造商能够将实时缺陷检测系统直接集成到生产线上。早期基准测试表明,与YOLOv12和DEIM等基于Transformer的替代方案相比,基于YOLO26的缺陷检测流程实现了更高的吞吐量和更低的运营成本。
4.4 YOLO26部署的更广泛见解
总而言之,YOLO26的部署特性突显了目标检测发展的一个核心主题:架构效率与准确性同等重要。在过去五年中,从基于卷积的YOLO变体到DETR和RT-DETR等基于Transformer的检测器,出现了越来越复杂的模型,但实验室性能与生产就绪性之间的差距往往限制了它们的影响。YOLO26通过简化架构、扩展导出兼容性和确保量化下的弹性,弥合了这一差距,从而使最先进的准确性与实际部署需求保持一致。
对于构建移动应用的开发人员而言,YOLO26通过CoreML和TFLite实现了无缝集成,确保模型在iOS和Android平台上原生运行。对于在云或本地服务器上部署视觉AI的企业,TensorRT和ONNX导出提供了可扩展的加速选项。对于工业和边缘用户,OpenVINO和INT8量化确保即使在严格的资源约束下性能仍然一致。从这个意义上说,YOLO26不仅是目标检测研究的一步前进,也是部署民主化的一个重要里程碑。
5 结论与未来方向
总之,YOLO26代表了YOLO目标检测系列的重大飞跃,将架构创新与务实的部署重点相结合。该模型通过移除分布焦点损失(DFL)模块和消除对非极大值抑制的需求,简化了其设计。通过移除DFL,YOLO26简化了边界框回归并避免了导出复杂性,从而扩大了与各种硬件的兼容性。同样,其端到端、无NMS推理使网络能够直接输出最终检测结果,无需后处理步骤。这不仅减少了延迟,还简化了部署流程,使YOLO26成为早期YOLO概念的自然演进。在训练方面,YOLO26引入了渐进式损失平衡(ProgLoss)和小目标感知标签分配(STAL),共同稳定了学习过程并提高了对具有挑战性的小目标的准确性。此外,结合了SGD和Muon特性的新型MuSGD优化器加速了收敛并提高了训练稳定性。这些改进共同作用,打造了一个不仅更准确、更稳健,而且在实践中明显更快、更轻量化的检测器。
基准测试对比突显了YOLO26相对于其YOLO前代模型和当代模型的强大性能。YOLOv11等之前的YOLO版本以更高的效率超越了早期版本,而YOLOv12通过整合注意力机制进一步扩展了准确性。YOLOv13添加了基于超图的改进以实现额外提升。与基于Transformer的竞争对手相比,YOLO26缩小了很大差距。其原生无NMS设计借鉴了受Transformer启发的检测器的端到端方法,但具有YOLO标志性的效率。YOLO26提供了竞争性的准确性,同时显著提高了普通硬件上的吞吐量并最大限度地降低了复杂性。事实上,YOLO26的设计使CPU推理速度比之前的YOLO版本快高达43%,使其成为资源受限环境中最实用的实时检测器之一。这种性能与效率的和谐平衡使YOLO26不仅在基准排行榜上表现出色,而且在速度、内存和能量至关重要的实际现场部署中也表现优异。
YOLO26的一个主要贡献是其对部署优势的重视。该模型的架构经过精心优化,以适应实际应用:通过省略DFL和NMS,YOLO26避免了难以在专用硬件加速器上实现的操作,从而提高了跨设备的兼容性。该网络可导出为多种格式,包括ONNX、TensorRT、CoreML、TFLite和OpenVINO,确保开发人员能够轻松地将其集成到移动应用、嵌入式系统或云服务中。至关重要的是,YOLO26还支持强大的量化:由于其简化的架构能够容忍低位宽推理,因此可以通过INT8量化或半精度FP16进行部署,对准确性的影响最小。这意味着模型可以被压缩和加速,同时仍然提供可靠的检测性能。这些特性转化为实际的边缘性能提升——从无人机到智能相机,YOLO26可以在之前的YOLO模型难以运行的CPU和小型设备上实时运行。所有这些改进都体现了一个总体主题:YOLO26弥合了尖端研究理念与可部署AI解决方案之间的差距。这种方法突显了YOLO26作为学术创新与工业应用之间桥梁的作用,将最新的视觉进展直接带给实践者。
5.1 未来方向
展望未来,YOLO和目标检测研究的发展轨迹表明了几个有前景的方向。一个明确的途径是将多个视觉任务统一到更全面的模型中。YOLO26已经在一个框架中支持目标检测、实例分割、姿态估计、旋转边界框和分类,反映了向多任务通用性的趋势。未来的YOLO迭代可能会进一步推进这一目标,纳入开放词汇表和基础模型能力。这可能意味着利用强大的视觉-语言模型,使检测器能够以零样本方式识别任意目标类别,而不受限于固定的标签集。通过构建在基础模型和大规模预训练之上,下一代YOLO可以作为通用视觉AI,无缝处理新颖目标的检测、分割甚至上下文描述。
另一个关键发展可能出现在目标检测的半监督和自监督学习领域[44,45,46,47]。最先进的检测器仍然严重依赖大型标记数据集,但研究正在迅速推进在未标记或部分标记数据上进行训练的方法。教师-学生训练[48,49,50]、伪标记[51,52]和自监督特征学习[53]等技术可以集成到YOLO训练流程中,减少对大量手动注释的需求。未来的YOLO可能会自动利用大量未标记的图像或视频来提高识别鲁棒性。通过这样做,该模型可以继续提高其检测能力,而无需成比例地增加标记数据,使其更适应新领域或稀有目标类别。
在架构方面,我们预计目标检测器将继续融合Transformer和CNN设计原则。最近YOLO模型的成功表明,将注意力和全局推理注入类YOLO架构可以带来准确性提升[54,55]。未来的YOLO架构可能会采用混合设计,将卷积骨干网络(用于高效的局部特征提取)与基于Transformer的模块或解码器(用于捕获长程依赖关系和上下文)相结合。这种混合方法可以通过建模纯CNN或简单自注意力可能忽略的关系,改善模型对复杂场景的理解(例如在拥挤或高度上下文相关的环境中)。我们预计下一代检测器将智能地融合这些技术,实现丰富的特征表征和低延迟。简而言之,“基于CNN”和“基于Transformer”检测器之间的界限将继续模糊,取两者之长以应对各种检测挑战。
最后,由于部署仍然是一个至关重要的问题,未来的研究可能会强调边缘感知训练和优化。这意味着模型开发将越来越多地从训练阶段就考虑硬件约束,而不仅仅是事后补救。量化感知训练(在训练过程中使用模拟低精度算术)等技术可以确保网络在量化为INT8以进行快速推理后仍然保持准确。我们可能还会看到神经架构搜索和自动化模型压缩成为构建YOLO模型的标准,因此每个新版本都是针对特定目标平台共同设计的。此外,将部署反馈(如设备上的延迟测量或能量使用)纳入训练循环是一个新兴的想法。例如,边缘优化的YOLO可以学习根据运行时约束动态调整其深度或分辨率,或者从较大的模型蒸馏为较小的模型,同时最大限度地减少性能损失。通过考虑这些因素进行训练,生成的检测器将在实践中实现准确性和效率之间的卓越平衡。随着目标检测器进入物联网、增强现实/虚拟现实和自主系统等领域(在这些领域中,有限硬件上的实时性能至关重要),这种对高效AI的关注至关重要。
注:本研究将在不久的将来通过在YOLOv13、YOLOv12和YOLOv11上进行基准测试来实验性地评估YOLO26。将使用机器视觉相机在农业环境中收集自定义数据集,包含10,000多个手动标记的感兴趣目标。模型将在相同条件下进行训练,结果将以精度、召回率、准确性、F1分数、mAP、推理速度以及预处理/后处理时间的形式报告。此外,在NVIDIA Jetson上进行的边缘计算实验将评估实时检测能力,为YOLO26在资源受限的农业应用中的实际部署提供见解。
专栏目录:YOLO26改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLO26改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!