YOLO26 实时目标检测关键架构改进与性能基准测试
YOLO26 是 Ultralytics 发布的最新实时目标检测模型,专为边缘设备设计。其核心改进包括移除分布焦点损失(DFL)和端到端无 NMS 推理,简化了架构并降低了延迟。引入 ProgLoss 和 STAL 策略增强了训练稳定性和小目标检测精度,配合 MuSGD 优化器实现快速收敛。模型支持多种导出格式及量化方案,在 CPU 推理速度上显著提升,适用于机器人、制造及物联网等场景。

YOLO26 是 Ultralytics 发布的最新实时目标检测模型,专为边缘设备设计。其核心改进包括移除分布焦点损失(DFL)和端到端无 NMS 推理,简化了架构并降低了延迟。引入 ProgLoss 和 STAL 策略增强了训练稳定性和小目标检测精度,配合 MuSGD 优化器实现快速收敛。模型支持多种导出格式及量化方案,在 CPU 推理速度上显著提升,适用于机器人、制造及物联网等场景。

本研究对 Ultralytics YOLO26 进行了全面分析,重点阐述了其在实时边缘目标检测领域的关键架构改进与性能基准测试结果。YOLO26 于 2025 年 9 月发布,是 YOLO 系列中最新、最先进的模型,专为在边缘设备和低功耗设备上实现高效能、高精度和部署就绪性而设计。论文依次详细介绍了 YOLO26 的架构创新,包括移除分布焦点损失(DFL)、采用端到端无非极大值抑制(NMS)推理、集成渐进式损失(ProgLoss)和小目标感知标签分配(STAL),以及引入 MuSGD 优化器以实现稳定收敛。除架构外,该研究将 YOLO26 定位为多任务框架,支持目标检测、实例分割、姿态/关键点估计、旋转检测和分类任务。我们在 NVIDIA Jetson Nano 和 Orin 等边缘设备上对 YOLO26 进行了性能基准测试,并将其结果与 YOLOv8、YOLOv11、YOLOv12、YOLOv13 以及基于 Transformer 的检测器进行了对比。论文进一步探讨了实时部署路径、灵活的导出选项(ONNX、TensorRT、CoreML、TFLite)以及 INT8/FP16 量化方案。重点展示了 YOLO26 在机器人技术、制造业和物联网等领域的实际应用案例,以证明其跨行业适应性。最后,讨论了部署效率和更广泛的应用意义,并概述了 YOLO26 及 YOLO 系列的未来发展方向。
关键词:YOLO26·边缘人工智能·多任务目标检测·无 NMS 推理·小目标识别·你只看一次·目标检测·MuSGD 优化器
目标检测已成为计算机视觉领域最关键的任务之一,使机器能够在图像或视频流中定位和分类多个目标 [1,2]。从自动驾驶、机器人技术到监控、医学成像、农业和智能制造,实时目标检测算法是人工智能(AI)应用的核心支柱 [3,4]。在这些算法中,'你只看一次'(YOLO)系列已成为最具影响力的实时目标检测模型系列,兼具准确性和前所未有的推理速度 [5,6,7]。自 2016 年推出以来,YOLO 经过多次架构修订,每次都解决了前代模型的局限性,同时整合了神经网络设计、损失函数和部署效率方面的前沿进展 [5]。2025 年 9 月 YOLO26 的发布标志着这一进化历程的最新里程碑,引入了架构简化、新型优化器和增强的边缘部署能力,专为低功耗设备设计。
表 1 详细对比了从 YOLOv1 到 YOLOv13 以及 YOLO26 的模型,重点列出了它们的发布年份、关键架构创新、性能改进和开发框架。
表 1:YOLOv1 至 YOLOv13 及 YOLO26 模型摘要:发布年份、架构、创新点、框架
| 模型(年份) | 关键架构创新与贡献 | 任务 | 框架 |
|---|---|---|---|
| YOLOv1(2015)[8] | 首个统一的单阶段目标检测器(一个网络同时处理边界框和类别概率) | 目标检测、分类 | Darknet |
| YOLOv2(2016)[9] | 引入多尺度训练;通过锚框维度聚类优化先验框(YOLO9000 联合检测/分类) | 目标检测、分类 | Darknet |
| YOLOv3(2018)[10] | 基于 Darknet-53 的深层骨干网络,带有残差连接;添加 SPP 模块和多尺度特征融合以提升小目标检测性能 | 多尺度目标检测 | Darknet |
| YOLOv4(2020)[11] | 采用 Mish 激活函数;CSPDarknet-53 骨干网络(跨阶段部分网络)增强特征复用 | 目标检测、目标跟踪 | Darknet |
| YOLOv5(2020) | Ultralytics 基于 PyTorch 的实现;支持无锚框检测头;采用 SiLU(Swish)激活函数和 PANet 颈部进行特征聚合 | 目标检测、实例分割(有限支持) | PyTorch(Ultralytics) |
| YOLOv6(2022)[12] | 高效 Rep 骨干网络,嵌入自注意力机制;引入无锚框目标检测模式以提升效率 | 目标检测、实例分割 | PyTorch |
| YOLOv7(2022)[13] | 扩展 ELAN(E-ELAN)骨干网络,采用模型重参数化;整合基于 Transformer 的模块以支持更广泛任务(如跟踪) | 目标检测、目标跟踪、实例分割 | PyTorch |
| YOLOv8(2023) | Ultralytics 下一代模型;全新 C2f 骨干网络和解耦头;整合生成式技术(基于 GAN 的增强)和全无锚框设计 | 目标检测、实例分割、全景分割、关键点估计 | PyTorch(Ultralytics) |
| YOLOv9(2024)[14] | 引入可编程梯度信息(PGI)用于选择性学习;提出 G-ELAN(增强型 ELAN 架构)以改进特征提取 | 目标检测、实例分割 | PyTorch |
| YOLOv10(2024)[15] | 通过一致的双分配训练策略实现端到端无 NMS 检测(移除后处理步骤) | 目标检测 | PyTorch |
| YOLOv11(2024) | 在骨干网络/颈部全程添加 C3k2 CSP 瓶颈(小核 CSP 块)以提升效率;保留 SPPF 并引入 C2PSA(带空间注意力的 CSP)模块以聚焦重要区域;将 YOLO 扩展至姿态估计和旋转目标检测任务 | 目标检测、实例分割、姿态估计、旋转检测 | PyTorch(Ultralytics) |
| YOLOv12[16](2025) | 注意力中心架构:引入高效区域注意力模块(低复杂度全局自注意力)和残差 ELAN(R-ELAN)块以改进特征聚合,在 YOLO 速度下实现 Transformer 级别的准确性 | 目标检测 | PyTorch |
| YOLOv13[17](2025) | 基于超图的自适应关联增强(HyperACE)模块以捕获全局高阶特征交互;全流程聚合 - 分布(FullPAD)方案增强网络中的特征流动;采用深度可分离卷积降低复杂度 | 目标检测 | PyTorch |
| YOLO26(2025) | Ultralytics 边缘优化模型:通过原生端到端预测器消除 NMS;移除分布焦点损失(DFL)以实现更简单、更快的推理;引入 MuSGD 优化器(SGD+Muon 混合)实现稳定快速收敛;显著提升小目标检测精度,CPU 推理速度最高提升 43%,适用于低功耗设备部署 | 目标检测、实例分割、姿态估计、旋转检测、分类 | PyTorch(Ultralytics) |
YOLO 框架由约瑟夫·雷蒙德及其同事于 2016 年首次提出,开创了目标检测领域的范式转变 [8]。与 R-CNN[18] 和 Faster R-CNN[19] 等传统两阶段检测器不同(这些检测器将区域提议与分类分离),YOLO 将检测问题表述为单一回归任务 [20]。通过在卷积神经网络(CNN)的一次前向传播中直接预测边界框和类别概率,YOLO 在保持竞争力准确性的同时实现了实时速度 [21,20]。这种高效性使得 YOLOv1 在延迟至关重要的应用中极具吸引力,包括机器人技术、自主导航和实时视频分析。后续版本 YOLOv2(2017)[9] 和 YOLOv3(2018)[10] 在保留实时性能的同时显著提升了准确性。YOLOv2 引入了批量归一化、锚框和多尺度训练,增强了对不同目标尺寸的鲁棒性。YOLOv3 采用了基于 Darknet-53 的更深层架构,以及多尺度特征图以改进小目标检测。这些改进使 YOLOv3 在数年内成为学术和工业应用的事实标准 [22,5,23]。
随着对更高准确性的需求不断增长,尤其是在航空影像、农业和医学分析等具有挑战性的领域,YOLO 模型向更先进的架构方向发展。YOLOv4(2020)[11] 引入了跨阶段部分网络(CSPNet)、改进的激活函数(如 Mish)以及先进的训练策略(包括马赛克数据增强和 CIoU 损失)。YOLOv5(Ultralytics,2020)虽非官方版本,但由于其 PyTorch 实现、广泛的社区支持以及在多种平台上的简化部署,获得了极大的普及。YOLOv5 还带来了模块化特性,使其更易于适配分割、分类和边缘应用。进一步的发展包括 YOLOv6[12] 和 YOLOv7[13](2022),它们整合了先进的优化技术、参数高效模块和受 Transformer 启发的块。这些迭代使 YOLO 更接近最先进(SoTA)的准确性基准,同时保持对实时推理的关注。至此,YOLO 生态系统已牢固确立了其在目标检测研究和部署中的领先模型家族地位。
作为现代 YOLO 版本的主要维护者,Ultralytics 通过 YOLOv8(2023)[24] 重新定义了该框架。YOLOv8 具有解耦检测头、无锚框预测和优化的训练策略,在准确性和部署灵活性方面均取得了显著改进 [25]。由于其简洁的 Python API、与 TensorRT、CoreML 和 ONNX 的兼容性,以及针对速度与准确性权衡优化的变体(nano、small、medium、large 和 extra-large),它在工业界被广泛采用。YOLOv9[14]、YOLOv10[15] 和 YOLOv11 紧随其后,每次迭代都突破了架构和性能的边界。YOLOv9 引入了 GELAN(通用高效层聚合网络)和渐进式蒸馏,结合了高效性和更高的表征能力。YOLOv10 专注于通过混合任务对齐分配来平衡准确性和推理延迟。YOLOv11 进一步完善了 Ultralytics 的愿景,在 GPU 上提供了更高的效率,同时保持了强大的小目标检测性能 [5]。这些模型共同巩固了 Ultralytics 在生产就绪型 YOLO 版本开发方面的声誉,这些版本专为现代部署流程量身定制。
在 YOLOv11 之后,替代版本 YOLOv12[16] 和 YOLOv13[17] 引入了以注意力为中心的设计和先进的架构组件,旨在最大化不同数据集的准确性。这些模型探索了多头自注意力、改进的多尺度融合和更强的训练正则化策略。尽管它们提供了出色的基准测试结果,但仍依赖于非极大值抑制(NMS)和分布焦点损失(DFL),这带来了延迟开销和导出挑战,尤其是对于低功耗设备。基于 NMS 的后处理和复杂损失公式的局限性推动了 YOLO26 的开发(Ultralytics YOLO26 官方来源)。2025 年 9 月,在伦敦举行的 YOLO Vision 2025 活动上,Ultralytics 推出了 YOLO26,将其作为专为边缘计算、机器人技术和移动 AI 优化的下一代模型。
YOLO26 围绕三个指导原则设计:简洁性、高效性和创新性,图 1 概述了这些设计选择及其支持的五项任务:目标检测、实例分割、姿态/关键点检测、旋转检测和分类。在推理路径上,YOLO26 消除了 NMS,生成原生端到端预测,消除了主要的后处理瓶颈,减少了延迟差异,并简化了跨部署的阈值调优。在回归方面,它移除了 DFL,将分布式框解码转变为更轻量化、硬件友好的公式,可顺利导出至 ONNX、TensorRT、CoreML 和 TFLite——这对于边缘和移动流程来说是一项实际优势。这些变化共同打造了更精简的计算图、更快的冷启动速度和更少的运行时依赖,这对于 CPU 受限和嵌入式场景尤其有利。通过 ProgLoss(渐进式损失平衡)和 STAL(小目标感知标签分配)解决了训练稳定性和小目标保真度问题。ProgLoss 自适应地重新加权目标,以防止训练后期简单样本占主导地位,而 STAL 优先考虑微小或遮挡实例的标签分配,在航空、机器人和智能相机馈送中常见的杂乱、foliage 或运动模糊条件下提高召回率。优化由 MuSGD 驱动,这是一种混合优化器,融合了 SGD 的泛化能力与受 Muon 风格方法启发的动量/曲率特性,实现了更快、更平滑的收敛以及跨尺度更可靠的平台期。
功能上,如图 1 再次强调的,YOLO26 的五项能力共享统一的骨干网络/颈部和简化的头部:
这种整合设计允许多任务训练或特定任务微调,而无需架构重构,同时简化的导出保留了跨加速器的可移植性。总之,YOLO26 通过将端到端推理和无 DFL 回归与 ProgLoss、STAL 和 MuSGD 相结合,推进了 YOLO 系列,打造了一个部署更快、训练更稳定、功能更广泛的模型,如图 1 的可视化总结所示。
图 1:YOLO26 统一架构支持五项关键视觉任务——目标检测、实例分割、姿态/关键点检测、旋转检测和分类。
YOLO26 的架构遵循精简高效的流程,专为边缘和服务器平台的实时目标检测而设计。如图 2 所示,流程始于输入数据(图像或视频流)的摄入,首先通过预处理操作(包括调整大小和归一化)将其转换为适合模型推理的标准维度。然后,数据被送入骨干特征提取阶段,其中紧凑而强大的卷积网络捕获视觉模式的层次化表征。为了增强跨尺度的鲁棒性,该架构生成多尺度特征图(图 2),为大型和小型目标保留语义丰富性。这些特征图随后在轻量级特征融合颈部中合并,以计算高效的方式整合信息。特定于检测的处理在直接回归头部中进行,与之前的 YOLO 版本不同,该头部无需依赖非极大值抑制(NMS)即可输出边界框和类别概率。这种端到端无 NMS 推理(图 2)消除了后处理开销并加速了部署。ProgLoss 平衡和 STAL 分配模块增强了训练稳定性和准确性,确保损失项的均衡加权和小目标检测的改进。模型优化由 MuSGD 优化器指导,结合了 SGD 和 Muon 的优势,实现更快、更可靠的收敛。通过支持 FP16 和 INT8 精度的量化进一步提升了部署效率,使 CPU、NPU 和 GPU 能够在最小精度损失的情况下实现加速。最后,流程生成输出预测,包括可叠加在输入图像上可视化的边界框和类别分配。总体而言,YOLO26 的架构展示了精心平衡的设计理念,同时提升了准确性、稳定性和部署简便性。
YOLO26 引入了多项关键架构创新,使其区别于前几代 YOLO 模型。这些改进不仅提高了训练稳定性和推理效率,还从根本上重塑了实时边缘设备的部署流程。本节将详细描述 YOLO26 的四大主要贡献:(i)移除分布焦点损失(DFL);(ii)引入端到端无 NMS 推理;(iii)包括渐进式损失平衡(ProgLoss)和小目标感知标签分配(STAL)在内的新型损失函数策略;(iv)开发用于稳定高效收敛的 MuSGD 优化器。将详细讨论每项架构改进,并通过对比分析突出其相较于 YOLOv8、YOLOv11、YOLOv12 和 YOLOv13 等早期 YOLO 版本的优势。
图 2:Ultralytics YOLO26 的简化架构图
YOLO26 中最显著的架构简化之一是移除了分布焦点损失(DFL)模块(图 3a),该模块在 YOLOv8 和 YOLOv11 等之前的 YOLO 版本中存在。DFL 最初设计用于通过预测框坐标的概率分布来改进边界框回归,从而实现更精确的目标定位。尽管该策略在早期模型中展示了准确性提升,但也带来了不小的计算开销和导出困难。实际上,DFL 在推理和模型导出过程中需要专门处理,这使得针对 ONNX、CoreML、TensorRT 或 TFLite 等硬件加速器的部署流程变得复杂。
通过消除 DFL,YOLO26 简化了模型架构,使边界框预测成为更直接的回归任务,同时不牺牲性能。对比分析表明,YOLO26 实现了与基于 DFL 的 YOLO 模型相当或更优的准确性,尤其是在与 ProgLoss 和 STAL 等其他创新结合使用时。此外,移除 DFL 显著降低了推理延迟并提高了跨平台兼容性。这使得 YOLO26 更适合边缘人工智能场景,在这些场景中,轻量化和硬件友好型模型至关重要。
相比之下,YOLOv12 和 YOLOv13 等模型在其架构中保留了 DFL,尽管它们在 GPU 资源丰富的环境中具有出色的准确性基准,但限制了其在受限设备上的适用性。因此,YOLO26 标志着朝着使最先进的目标检测性能与移动、嵌入式和工业应用实际情况对齐的决定性一步。
YOLO26 的另一项突破性特征是其对无 NMS(非极大值抑制)端到端推理的原生支持(参见图 3b)。包括 YOLOv8 至 YOLOv13 在内的传统 YOLO 模型严重依赖 NMS 作为后处理步骤,通过仅保留置信度分数最高的边界框来过滤重复预测。尽管有效,但 NMS 增加了流程的额外延迟,并且需要手动调整的超参数(如交并比(IoU)阈值)。这种对手工设计后处理步骤的依赖导致部署流程的脆弱性,尤其是对于边缘设备和对延迟敏感的应用。
YOLO26 从根本上重新设计了预测头,能够直接生成非冗余的边界框预测,无需 NMS。这种端到端设计不仅降低了推理复杂度,还消除了对手动调整阈值的依赖,从而简化了与生产系统的集成。对比基准测试表明,YOLO26 实现了比 YOLOv11 和 YOLOv12 更快的推理速度,nano 模型的 CPU 推理时间减少了高达 43%。这使得 YOLO26 特别适合移动设备、无人机和嵌入式机器人平台,在这些平台上,毫秒级的延迟可能会对操作产生重大影响。
除速度外,无 NMS 方法还提高了可重复性和部署可移植性,因为模型不再需要大量的后处理代码。尽管 RT-DETR 和 Sparse R-CNN 等其他先进检测器已尝试无 NMS 推理,但 YOLO26 是首个采用这种范式的 YOLO 版本,同时保持了 YOLO 标志性的速度与准确性平衡。与仍依赖 NMS 的 YOLOv13 相比,YOLO26 的端到端流程是实时检测的前瞻性架构。
图 3:YOLO26 的关键架构改进:(a) 移除分布焦点损失(DFL)简化了边界框回归,提高了效率和导出兼容性;(b) 端到端无 NMS 推理消除了后处理瓶颈,实现更快、更简单的部署;© ProgLoss 和 STAL 增强了训练稳定性,并显著提高了小目标检测准确性;(d) MuSGD 优化器结合了 SGD 和 Muon 的优势,实现了更快、更稳定的训练收敛。
训练稳定性和小目标识别仍然是目标检测中的长期挑战。YOLO26 通过整合两种新型策略解决了这些问题:渐进式损失平衡(ProgLoss)和小目标感知标签分配(STAL),如图 3c 所示。
ProgLoss 在训练过程中动态调整不同损失组件的权重,确保模型不会过度拟合主导目标类别,同时在稀有或小型类别上表现不佳。这种渐进式重新平衡提高了泛化能力,并防止了训练后期 epoch 的不稳定性。另一方面,STAL 明确优先考虑小目标的标签分配,由于小目标的像素表征有限且易受遮挡影响,其检测难度特别大。ProgLoss 和 STAL 共同为 YOLO26 在包含小型或遮挡目标的数据集(如 COCO 和无人机影像基准)上提供了显著的准确性提升。
相比之下,YOLOv8 和 YOLOv11 等早期模型没有纳入此类针对性机制,通常需要特定于数据集的增强或外部训练技巧才能实现可接受的小目标性能。YOLOv12 和 YOLOv13 尝试通过基于注意力的模块和增强的多尺度特征融合来弥补这一差距;然而,这些解决方案增加了架构复杂性和推理成本。YOLO26 通过更轻量化的方法实现了类似或更优的改进,强化了对边缘 AI 应用的适用性。通过整合 ProgLoss 和 STAL,YOLO26 确立了其作为强大的小目标检测器的地位,同时保持了 YOLO 家族的高效性和可移植性。
YOLO26 的最后一项创新是引入了 MuSGD 优化器(图 3d),它结合了随机梯度下降(SGD)的优势与最近提出的 Muon 优化器——一种受大型语言模型(LLM)训练中使用的优化策略启发的技术。MuSGD 利用了 SGD 的鲁棒性和泛化能力,同时融合了 Muon 的自适应特性,实现了更快的收敛和跨不同数据集的更稳定优化。
这种混合优化器反映了现代深度学习的一个重要趋势:自然语言处理(NLP)和计算机视觉之间的技术交叉融合。通过借鉴 LLM 训练实践(例如 Moonshot AI 的 Kimi K2),YOLO26 受益于之前在 YOLO 系列中未探索过的稳定性增强。实证结果表明,MuSGD 使 YOLO26 能够用更少的训练 epoch 达到具有竞争力的准确性,从而减少了训练时间和计算成本。
包括 YOLOv8 至 YOLOv13 在内的之前的 YOLO 版本依赖于标准 SGD 或 AdamW 变体。尽管有效,但这些优化器需要大量的超参数调优,并且有时会表现出不稳定的收敛,尤其是在变异性高的数据集上。相比之下,MuSGD 在保持 YOLO 轻量化训练理念的同时提高了可靠性。对于实践者而言,这意味着更短的开发周期、更少的训练重启以及跨部署场景更可预测的性能。通过整合 MuSGD,YOLO26 不仅定位为推理优化模型,还成为研究人员和工业实践者友好的训练架构。
针对 YOLO26,我们进行了一系列严格的基准测试,以评估其相较于 YOLO 前代模型和其他最先进架构的性能。图 4 综合展示了该评估结果,在配备 TensorRT FP16 优化的 NVIDIA T4 GPU 上绘制了 COCO mAP(50-95) 与延迟(每幅图像毫秒数)的关系。纳入了 YOLOv10、RT-DETR、RT-DETRv2、RT-DETRv3 和 DEIM 等竞争架构,全面呈现了实时检测领域的最新进展。从图中可以看出,YOLO26 展现出独特的定位:它保持了与 RT-DETRv3 等基于 Transformer 的模型相当的高准确性,同时在推理速度方面显著优于它们。例如,YOLO26-m 和 YOLO26-l 分别实现了 51% 和 53% 以上的竞争性 mAP 分数,但延迟大幅降低,突显了其无 NMS 架构和轻量化回归头的优势。
这种准确性与速度之间的平衡对于边缘部署尤为重要,在边缘部署中,保持实时吞吐量与确保可靠的检测质量同等重要。与 YOLOv10 相比,YOLO26 在所有模型尺度上均实现了更低的延迟,CPU 受限推理的速度提升高达 43%,同时通过其 ProgLoss 和 STAL 机制保持或提高了准确性。与严重依赖 Transformer 编码器和解码器的 DEIM 和 RT-DETR 系列相比,YOLO26 简化的骨干网络和 MuSGD 驱动的训练流程实现了更快的收敛和更精简的推理,同时不影响小目标识别。图 4 中的图表清楚地说明了这些差异:尽管 RT-DETRv3 在大规模准确性基准测试中表现出色,但其延迟分布仍不如 YOLO26,这强化了 YOLO26 以边缘为中心的设计理念。此外,基准测试分析突显了 YOLO26 在平衡准确性 - 延迟曲线方面的鲁棒性,使其成为适用于高吞吐量服务器应用和资源受限设备的多功能检测器。这些对比证据证实了 YOLO26 不仅仅是增量更新,而是 YOLO 系列的范式转变,成功弥合了早期 YOLO 模型效率优先理念与基于 Transformer 的检测器准确性驱动导向之间的差距。最终,基准测试结果表明,YOLO26 提供了令人信服的部署优势,尤其是在需要在严格延迟约束下实现可靠性能的实际环境中。
图 4:YOLO26 与 YOLOv10、RT-DETR、RT-DETRv2、RT-DETRv3 和 DEIM 在 COCO 数据集上的性能基准测试。该图展示了在 NVIDIA T4 GPU 上使用 TensorRT FP16 推理测量的 COCO mAP(50-95) 与延迟(每幅图像毫秒数)的关系。YOLO26 展示了卓越的准确性和效率平衡,在实现竞争性检测性能的同时显著降低了延迟,从而突显了其对实时边缘和资源受限部署的适用性。
在过去十年中,目标检测模型的发展不仅以准确性的提高为标志,还以部署复杂性的增加为特征 [26,27,28]。R-CNN 及其更快的变体(Fast R-CNN、Faster R-CNN)等早期检测器实现了令人印象深刻的检测质量,但计算成本高昂,需要多个阶段进行区域提议和分类 [29,30,31]。这限制了它们在实时和嵌入式应用中的使用。YOLO 家族的出现通过将检测重新定义为单一回归问题,改变了这一格局,使在商用 GPU 上实现实时性能成为可能 [32]。然而,随着 YOLO 系列从 YOLOv1 发展到 YOLOv13,准确性的提高往往伴随着额外的架构组件(如分布焦点损失(DFL))、复杂的后处理步骤(如非极大值抑制(NMS))以及日益沉重的骨干网络,这些都给部署带来了困难。YOLO26 通过简化架构和导出路径,直接解决了这一长期存在的挑战,从而减少了跨不同硬件和软件生态系统的部署障碍。
YOLO26 的一个关键优势是其与现有生产流程的无缝集成。Ultralytics 维护着一个积极开发的 Python 包,提供统一的训练、验证和导出支持,降低了实践者采用 YOLO26 的技术门槛。与需要大量自定义转换脚本进行硬件加速的早期 YOLO 模型不同 [33,34,35],YOLO26 原生支持多种导出格式。这些格式包括用于最大 GPU 加速的 TensorRT、用于广泛跨平台兼容性的 ONNX、用于原生 iOS 集成的 CoreML、用于 Android 和边缘设备的 TFLite,以及用于 Intel 硬件优化性能的 OpenVINO。这些导出选项的广度使研究人员、工程师和开发人员能够将模型从原型设计阶段推进到生产阶段,而不会遇到前几代模型常见的兼容性瓶颈。
历史上,YOLOv3 至 YOLOv7 在导出过程中经常需要手动干预,尤其是在针对 NVIDIA TensorRT 或 Apple CoreML 等专用推理引擎时 [36,37]。同样,DETR 及其后继者等基于 Transformer 的检测器由于依赖动态注意力机制,在 PyTorch 环境之外转换时面临挑战。相比之下,YOLO26 的架构通过移除 DFL 和采用无 NMS 预测头得到了简化,确保了跨平台兼容性,同时不牺牲准确性。这使得 YOLO26 成为迄今为止最易于部署的检测器之一,强化了其边缘优先模型的定位。
除了导出灵活性外,实际部署中的真正挑战在于确保在计算资源有限的设备上的效率 [27,38]。智能手机、无人机和嵌入式视觉系统等边缘设备通常缺乏独立 GPU,必须平衡内存、功耗和延迟约束 [39,40]。量化是一种广泛采用的策略,用于减小模型大小和计算负载,然而许多复杂检测器在激进量化下会经历显著的准确性下降。YOLO26 的设计考虑到了这一限制。
由于其精简的架构和简化的边界框回归流程,YOLO26 在半精度(FP16)和整数(INT8)量化方案下均表现出稳定的准确性。FP16 量化利用了 GPU 对混合精度算术的原生支持,实现了更快的推理和更小的内存占用。INT8 量化将模型权重压缩为 8 位整数,在保持竞争性准确性的同时大幅降低了模型大小和能耗。基准测试实验证实,YOLO26 在这些量化级别上保持稳定,在相同条件下优于 YOLOv11 和 YOLOv12。这使得 YOLO26 特别适合部署在紧凑的硬件上,如 NVIDIA Jetson Orin、高通骁龙 AI 加速器,甚至是驱动智能相机的基于 ARM 的 CPU。
相比之下,RT-DETRv3 等基于 Transformer 的检测器在 INT8 量化下表现出显著的性能下降 [41],这主要是由于注意力机制对精度降低的敏感性。同样,YOLOv12 和 YOLOv13 虽然在 GPU 服务器上提供了强大的准确性,但一旦量化,在低功耗设备上难以保持竞争性性能。因此,YOLO26 为目标检测中的量化感知设计树立了新的基准,表明架构简洁性可以直接转化为部署鲁棒性。
这些部署增强的实际影响通过跨行业应用得到了最好的体现。在机器人技术中,实时感知对于导航、操作和安全的人机协作至关重要 [42,43]。通过提供无 NMS 预测和一致的低延迟推理,YOLO26 使机器人系统能够更快、更可靠地解释其环境。例如,配备 YOLO26 的机械臂可以在动态条件下更精确地识别和抓取物体,而移动机器人则受益于在杂乱空间中改进的障碍物识别。与 YOLOv8 或 YOLOv11 相比,YOLO26 提供了更低的推理延迟,这在高速场景中可能是安全操作与碰撞之间的关键差异。
在制造业中,YOLO26 对自动化缺陷检测和质量保证具有重要意义。传统的人工检测不仅劳动密集型,而且容易出现人为错误。之前的 YOLO 版本(尤其是 YOLOv8)已经部署在智能工厂中;然而,导出的复杂性和 NMS 的延迟开销有时限制了大规模推广。YOLO26 通过 OpenVINO 或 TensorRT 提供轻量化部署选项,缓解了这些障碍,使制造商能够将实时缺陷检测系统直接集成到生产线上。早期基准测试表明,与 YOLOv12 和 DEIM 等基于 Transformer 的替代方案相比,基于 YOLO26 的缺陷检测流程实现了更高的吞吐量和更低的运营成本。
总而言之,YOLO26 的部署特性突显了目标检测发展的一个核心主题:架构效率与准确性同等重要。在过去五年中,从基于卷积的 YOLO 变体到 DETR 和 RT-DETR 等基于 Transformer 的检测器,出现了越来越复杂的模型,但实验室性能与生产就绪性之间的差距往往限制了它们的影响。YOLO26 通过简化架构、扩展导出兼容性和确保量化下的弹性,弥合了这一差距,从而使最先进的准确性与实际部署需求保持一致。
对于构建移动应用的开发人员而言,YOLO26 通过 CoreML 和 TFLite 实现了无缝集成,确保模型在 iOS 和 Android 平台上原生运行。对于在云或本地服务器上部署视觉 AI 的企业,TensorRT 和 ONNX 导出提供了可扩展的加速选项。对于工业和边缘用户,OpenVINO 和 INT8 量化确保即使在严格的资源约束下性能仍然一致。从这个意义上说,YOLO26 不仅是目标检测研究的一步前进,也是部署民主化的一个重要里程碑。
总之,YOLO26 代表了 YOLO 目标检测系列的重大飞跃,将架构创新与务实的部署重点相结合。该模型通过移除分布焦点损失(DFL)模块和消除对非极大值抑制的需求,简化了其设计。通过移除 DFL,YOLO26 简化了边界框回归并避免了导出复杂性,从而扩大了与各种硬件的兼容性。同样,其端到端、无 NMS 推理使网络能够直接输出最终检测结果,无需后处理步骤。这不仅减少了延迟,还简化了部署流程,使 YOLO26 成为早期 YOLO 概念的自然演进。在训练方面,YOLO26 引入了渐进式损失平衡(ProgLoss)和小目标感知标签分配(STAL),共同稳定了学习过程并提高了对具有挑战性的小目标的准确性。此外,结合了 SGD 和 Muon 特性的新型 MuSGD 优化器加速了收敛并提高了训练稳定性。这些改进共同作用,打造了一个不仅更准确、更稳健,而且在实践中明显更快、更轻量化的检测器。
基准测试对比突显了 YOLO26 相对于其 YOLO 前代模型和当代模型的强大性能。YOLOv11 等之前的 YOLO 版本以更高的效率超越了早期版本,而 YOLOv12 通过整合注意力机制进一步扩展了准确性。YOLOv13 添加了基于超图的改进以实现额外提升。与基于 Transformer 的竞争对手相比,YOLO26 缩小了很大差距。其原生无 NMS 设计借鉴了受 Transformer 启发的检测器的端到端方法,但具有 YOLO 标志性的效率。YOLO26 提供了竞争性的准确性,同时显著提高了普通硬件上的吞吐量并最大限度地降低了复杂性。事实上,YOLO26 的设计使 CPU 推理速度比之前的 YOLO 版本快高达 43%,使其成为资源受限环境中最实用的实时检测器之一。这种性能与效率的和谐平衡使 YOLO26 不仅在基准排行榜上表现出色,而且在速度、内存和能量至关重要的实际现场部署中也表现优异。
YOLO26 的一个主要贡献是其对部署优势的重视。该模型的架构经过精心优化,以适应实际应用:通过省略 DFL 和 NMS,YOLO26 避免了难以在专用硬件加速器上实现的操作,从而提高了跨设备的兼容性。该网络可导出为多种格式,包括 ONNX、TensorRT、CoreML、TFLite 和 OpenVINO,确保开发人员能够轻松地将其集成到移动应用、嵌入式系统或云服务中。至关重要的是,YOLO26 还支持强大的量化:由于其简化的架构能够容忍低位宽推理,因此可以通过 INT8 量化或半精度 FP16 进行部署,对准确性的影响最小。这意味着模型可以被压缩和加速,同时仍然提供可靠的检测性能。这些特性转化为实际的边缘性能提升——从无人机到智能相机,YOLO26 可以在之前的 YOLO 模型难以运行的 CPU 和小型设备上实时运行。所有这些改进都体现了一个总体主题:YOLO26 弥合了尖端研究理念与可部署 AI 解决方案之间的差距。这种方法突显了 YOLO26 作为学术创新与工业应用之间桥梁的作用,将最新的视觉进展直接带给实践者。
展望未来,YOLO 和目标检测研究的发展轨迹表明了几个有前景的方向。一个明确的途径是将多个视觉任务统一到更全面的模型中。YOLO26 已经在一个框架中支持目标检测、实例分割、姿态估计、旋转边界框和分类,反映了向多任务通用性的趋势。未来的 YOLO 迭代可能会进一步推进这一目标,纳入开放词汇表和基础模型能力。这可能意味着利用强大的视觉 - 语言模型,使检测器能够以零样本方式识别任意目标类别,而不受限于固定的标签集。通过构建在基础模型和大规模预训练之上,下一代 YOLO 可以作为通用视觉 AI,无缝处理新颖目标的检测、分割甚至上下文描述。
另一个关键发展可能出现在目标检测的半监督和自监督学习领域 [44,45,46,47]。最先进的检测器仍然严重依赖大型标记数据集,但研究正在迅速推进在未标记或部分标记数据上进行训练的方法。教师 - 学生训练 [48,49,50]、伪标记 [51,52] 和自监督特征学习 [53] 等技术可以集成到 YOLO 训练流程中,减少对大量手动注释的需求。未来的 YOLO 可能会自动利用大量未标记的图像或视频来提高识别鲁棒性。通过这样做,该模型可以继续提高其检测能力,而无需成比例地增加标记数据,使其更适应新领域或稀有目标类别。
在架构方面,我们预计目标检测器将继续融合 Transformer 和 CNN 设计原则。最近 YOLO 模型的成功表明,将注意力和全局推理注入类 YOLO 架构可以带来准确性提升 [54,55]。未来的 YOLO 架构可能会采用混合设计,将卷积骨干网络(用于高效的局部特征提取)与基于 Transformer 的模块或解码器(用于捕获长程依赖关系和上下文)相结合。这种混合方法可以通过建模纯 CNN 或简单自注意力可能忽略的关系,改善模型对复杂场景的理解(例如在拥挤或高度上下文相关的环境中)。我们预计下一代检测器将智能地融合这些技术,实现丰富的特征表征和低延迟。简而言之,'基于 CNN'和'基于 Transformer'检测器之间的界限将继续模糊,取两者之长以应对各种检测挑战。
最后,由于部署仍然是一个至关重要的问题,未来的研究可能会强调边缘感知训练和优化。这意味着模型开发将越来越多地从训练阶段就考虑硬件约束,而不仅仅是事后补救。量化感知训练(在训练过程中使用模拟低精度算术)等技术可以确保网络在量化为 INT8 以进行快速推理后仍然保持准确。我们可能还会看到神经架构搜索和自动化模型压缩成为构建 YOLO 模型的标准,因此每个新版本都是针对特定目标平台共同设计的。此外,将部署反馈(如设备上的延迟测量或能量使用)纳入训练循环是一个新兴的想法。例如,边缘优化的 YOLO 可以学习根据运行时约束动态调整其深度或分辨率,或者从较大的模型蒸馏为较小的模型,同时最大限度地减少性能损失。通过考虑这些因素进行训练,生成的检测器将在实践中实现准确性和效率之间的卓越平衡。随着目标检测器进入物联网、增强现实/虚拟现实和自主系统等领域(在这些领域中,有限硬件上的实时性能至关重要),这种对高效 AI 的关注至关重要。
注:本研究将在不久的将来通过在 YOLOv13、YOLOv12 和 YOLOv11 上进行基准测试来实验性地评估 YOLO26。将使用机器视觉相机在农业环境中收集自定义数据集,包含 10,000 多个手动标记的感兴趣目标。模型将在相同条件下进行训练,结果将以精度、召回率、准确性、F1 分数、mAP、推理速度以及预处理/后处理时间的形式报告。此外,在 NVIDIA Jetson 上进行的边缘计算实验将评估实时检测能力,为 YOLO26 在资源受限的农业应用中的实际部署提供见解。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online