无人机搭载多向曼巴系统，对架空输电线路开展隐患识别检测

优质文章学习记录

10 Apr 2026 — 30 min read

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

文章地址：https://pmc.ncbi.nlm.nih.gov/articles/PMC12559288/pdf/41598_2025_Article_21243.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

架空输电线路隐患检测事关电力通信系统稳定运行与社会正常运转。随着无人机技术与深度学习的发展，基于深度学习的无人机架空输电线路隐患检测方法受到广泛关注。

PART/1

概述

当前，该领域研究面临三大核心挑战：复杂背景干扰、小目标检测难题及检测效率与性能的平衡问题。针对上述挑战，本研究引入基于线性复杂度状态空间模型的曼巴（Mamba）算法，提出适用于架空输电线路隐患检测的无人机多向曼巴（UAV-MDMamba）模型。研究设计多向曼巴（MDMamba）模块，优化图像空间建模与复杂背景抑制能力，助力小尺度场景下隐患区域的精准捕捉；同时设计补丁级推理增强（PLIE）模块，提升推理阶段小目标检测精度。此外，本研究采集并标注一套复杂场景下的架空输电线路隐患检测数据集。大量实验结果表明，UAV-MDMamba模型在该数据集上表现优异，有效提升了架空输电线路隐患检测的效率与精度。

PART/2

背景

架空输电线路作为电力通信系统的重要组成部分，对经济发展与社会正常运转起着关键作用。由于架空输电线路多铺设于城市或野外开阔环境中，易面临各类潜在安全隐患。例如，雷暴、大风等极端自然环境会造成线路物理损伤，影响其正常运行；高低温交替变化也会加速线路材料老化，降低线路运行可靠性。为保障架空输电线路安全稳定运行，亟需采取有效手段应对上述问题。

传统架空输电线路隐患检测高度依赖人工巡检，巡检人员需沿线路定期开展现场排查，以识别潜在问题，该方式耗时费力。近年来，无人机航迹优化与定位技术飞速发展，使其可应用于资源受限、信号敏感等复杂恶劣场景。无人机被逐步引入架空输电线路巡检工作，提升了巡检效率与覆盖范围，但仍需人工对无人机回传的实时图像进行目视判读。随着深度学习技术的发展，基于深度神经网络的无人机架空输电线路隐患检测已成为当前研究热点。

架空输电线路隐患检测可归为计算机视觉领域的小目标检测问题。当前，研究人员广泛采用两类主流目标检测框架，即YOLO系列与FasterR-CNN系列。YOLO是一种实时目标检测网络，可通过单次推理实现整幅图像内所有目标的定位与分类，其速度优势在架空输电线路巡检等场景中尤为突出；FasterR-CNN系列则以检测精度高著称，尤其适用于复杂场景下的小目标检测任务。尽管两类框架在通用小目标检测任务中表现良好，但应用于无人机架空输电线路隐患检测这一特定场景时，仍面临诸多挑战。

图1为本文研究中采集的实景图像，具体挑战如下：

检测模型部署于无人机端或图像回传至地面控制台，均对实时性要求较高，因此网络模型设计需兼顾检测精度与效率；
无人机航拍图像易受复杂背景干扰，图像中各类目标与背景分布密集、相互遮挡，导致隐患目标的识别与定位难度增加；
无人机飞行姿态多变，造成目标分布稀疏不均且尺度变化剧烈，难以同时实现横担、螺栓等不同尺度目标的精准检测；此外，无人机通常采用高空拍摄模式，导致图像中目标数量多、尺度小，进一步提升了视觉处理难度，使得架空输电线路隐患检测面临小尺度识别难题。

本文主要研究贡献如下：

提出一种基于多向曼巴的无人机架空输电线路隐患检测网络，命名为UAV-MDMamba。引入具有线性复杂度的状态空间模型（SSM）曼巴算法，实现检测精度与效率的均衡。
设计多向曼巴（MDMamba）模块，强化对前景目标的聚焦能力，同时抑制背景干扰。该模块首先采用轻量化特征提取网络DSCBS（由深度可分离卷积、批量归一化及Sigmoid线性单元组合而成），为多向曼巴模块引入图像局部先验信息，提升图像空间特征学习效果；再通过二维选择性扫描与门控增强机制，让模块习得聚焦隐患区域的能力，降低复杂背景带来的干扰。
设计即插即用型补丁级推理增强模块（PLIE），提升推理阶段小目标检测精度，且该模块具备优异的泛化性能。
构建一套复杂场景下的架空输电线路隐患检测数据集。定性与定量实验结果表明，UAV-MDMamba模型在该数据集上表现优异。

PART/3

相关工作

无人机航拍图像中的目标检测

无人机航拍图像目标检测的早期方法主要依赖传统图像处理技术与机器学习方法，通常涵盖图像预处理、特征提取（如尺度不变特征变换（SIFT）、方向梯度直方图（HOG）），以及基于统计模型的分类器（如支持向量机（SVM）、Adaboost）。尽管这些方法取得了一定成果，但在应对环境变化、目标多样性与复杂场景时鲁棒性不足。近年来，深度学习（尤其是卷积神经网络（CNNs））的兴起极大推动了无人机航拍图像目标检测技术的发展，此类方法提升了检测精度，主要聚焦于小目标检测与多尺度目标检测两大方向。

无人机航拍图像中存在“小目标占比高、密集分布目标的类间区分度低”的特点，这给深度学习模型精准检测小目标与遮挡目标带来了挑战。Kisantal等人通过“复制粘贴”策略增强小目标检测能力，解决训练样本不足的问题：具体而言，先对小目标图像进行过采样，利用分割掩码提取目标，增加小目标数量；最后将小目标复制粘贴到图像的其他位置，有效提升了小目标检测性能。Zhang等人提出一种聚合损失函数，使预测候选框更接近真实目标框，在行人检测任务中提升了遮挡行人的检测精度，但该方法对阈值较为敏感。Huang等人提出融合统一前景打包的多代理检测网络（UFPMP-Det），用于解决无人机航拍图像中密集小目标与目标形状相似的问题：通过聚类算法合并初始检测器识别的子区域以抑制背景，再利用拼接操作提升小目标的前景占比；优化后的检测器平均仅需一次推理，显著提升了检测精度与效率。Zhu等人提出可变形检测Transformer（DDETR），将DETR中的注意力计算限制在参考点的若干相邻采样点上，降低了计算复杂度，提升了收敛速度。

无人机的飞行高度与角度会影响航拍图像中同类目标的尺度，多尺度间的巨大差异会导致深度语义信息与浅层特征信息出现明显断层。Liu等人提出自适应空间特征融合（ASFF）方法，这是一种高效的特征融合策略，可自适应调整不同尺寸目标对应特征图的权重。Deng等人提出全局-局部自适应网络（GLSAN），这是一种端到端的全局-局部自适应网络，能够引导检测器聚焦图像中的重要区域并实现更精细的检测；该网络通过渐进式尺度变化实现更精准的检测，局部精细检测器会自适应处理全局检测器识别的目标包围框。Yang等人提出采样等变自注意力网络，采用采样等变自注意力层实现泛化采样等变：自注意力被限制在局部图像块中，通过掩蔽卷积采样而非位置采样进行处理；特征提取则借助滑动窗口实现，而非依赖位置信息。Liu等人提出用于无人机目标检测的关系表示网络（RelationRS），该网络包含多尺度特征融合模块，可处理图像间的剧烈尺度变化并学习潜在关系。Jiang等人设计了多尺度特征融合小目标检测网络（MFFSODNet），用于增强小目标的细粒度信息提取：MFFSODNet通过多分支不同尺度的卷积操作提取多尺度特征信息。Wang等人提出跨模态航拍遥感图像检测（CRSIOD）网络，以增强无人机遥感的跨模态特征融合：该网络采用跨模态注意力特征融合方式，提取并补全两种模态的特征。

本研究中，我们提出MDMamba模块以增强对小目标隐患区域的空间感知能力：MDMamba内置的门控机制提升了对前景目标的聚焦程度，同时减少了背景干扰。此外，我们设计PLIE模块以进一步增强UAV-MDMamba的小目标检测能力；与其他研究者提出的方法不同，PLIE是一种通用的即插即用型方法。

状态空间模型

近年来，Transformer架构作为主流网络，在计算机视觉与自然语言处理领域展现出优异性能。该架构通过自注意力机制高效捕捉连续数据中的长程依赖关系，虽取得显著成果，但其固有的平方级计算复杂度问题日益突出——具体而言，Transformer的计算复杂度会随输入序列长度的增加呈二次方增长。而具有线性复杂度的状态空间模型（SSMs）在近三年逐渐受到广泛关注。

基于SSM的曼巴（Mamba）模型是近期的研究热点，目前已有多项研究开始探索基于Mamba的各类任务。Zhu等人设计了一种通用视觉骨干网络，该网络包含双向Mamba模块（Vim），适用于图像分类、目标检测与分割任务；他们通过探索双向SSM，解决了图像全局建模问题。Xing等人提出3D医学图像分割模型SegMamba，该模型可捕获整个体素特征，其性能优于基于Transformer的模型，且推理速度更高效。Han等人发现，直接使用Mamba处理点云任务的性能较差，因此设计了局部归一化池化（LNP）模块以提升局部几何特征的提取效果，并提出MAMBA3D。Zhao等人针对超高分辨率遥感图像，提出遥感Mamba（RSM）模型，该模型集成全向选择性扫描模块，用于图像上下文的全局建模。Zhou等人对Vim模型进行改进，设计了多尺度“Mamba嵌套Mamba”（MiM）模型，用于高光谱图像分类；MiM通过所设计的集中式Mamba交叉扫描机制，实现了图像到序列数据的转换。

Mamba在各领域的成功应用，启发我们设计了基于Mamba的UAV-MDMamba模型，用于探索架空输电线路的隐患检测任务。

PART/4

新算法框架解析

本节首先简要概述状态空间模型的基础内容，随后详细阐述UAV-MDMamba的架构设计，接着介绍核心的MDMamba模块，最后提出PLIE模块，以提升推理阶段架空输电线路的隐患检测效果。

UAV-MDMamba模型

本文基于YOLOv8提出一种CNN与Mamba结合的混合模型，用于架空输电线路隐患检测，命名为UAV-MDMamba。如图2所示，该模型的整体架构包含三部分：UAV-MDMamba骨干网络、UAV-MDMamba颈部网络与检测头。

UAV-MDMamba骨干网络

UAV-MDMamba骨干网络负责对输入图像进行特征提取，是隐患检测流程中最关键的环节，为后续步骤提供具有区分性的特征。如图2a所示，骨干网络的核心结构是MDMamba模块，其主要作用是提取无人机航拍图像的特征：该模块弥补了Mamba单一扫描方向的不足，通过在四个方向进行二维选择性扫描，功能与注意力操作相似，可显著提升空间特征的表征能力。如图2d所示，图像输入端嵌入了由3×3卷积、批量归一化（BN）与SiLU激活函数组成的CBS模块，该模块增强了图像空间局部性的感知能力，有助于MDMamba后续的空间建模。同时，骨干网络采用空间金字塔池化加速（SPPF）模块进行多尺度特征提取与融合：如图2f所示，该模块主要包含卷积层与三个最大池化层（核尺寸分别为5×5、9×9、13×13），通过在不同尺度下执行池化操作，SPPF模块可更好地适配目标尺度的变化，从而提升检测精度。

UAV-MDMamba颈部网络

UAV-MDMamba颈部网络是一个增强型多尺度特征金字塔融合网络。深层特征图分辨率较低，但包含丰富的语义信息；浅层特征图分辨率较高，包含输电线路隐患相关的纹理特征。与骨干网络类似，我们在颈部网络中也使用MDMamba模块（如图2b所示），以增强多尺度信息间的聚合能力——由此，MDMamba成为骨干网络与颈部网络中通用的特征学习模块。

检测头

检测头是UAV-MDMamba的预测网络。如图2c所示，检测头采用解耦结构，包含三个不同尺寸的检测分支，可为不同尺度的目标提供检测输出；如图2e所示，每个检测头网络均包含检测框分支与分类分支。在此设计下，UAV-MDMamba需要两种损失函数来完成训练过程：分类损失采用VarifocalLoss（VFL），回归损失采用完全交并比（CIoU）损失与分布焦点损失（DFL）函数。

多向曼巴模块

图3a展示了MDMamba模块的详细架构，其主要由DSCBS模块、层归一化（LN）、残差连接、二维选择性扫描（SS2D）与门控增强机制（GCE）组成。

DSCBS模块

状态空间模型（SSMs）最初用于时间序列建模，但直接将其应用于二维图像会丢失空间信息。DSCBS模块作为轻量化预特征提取模块，可增强图像的空间级特征表征能力，并在两个MDMamba模块之间建立空间连接——它将卷积的局部性特征注入后续的二维图像中，以配合SS2D操作。

如图3b所示，DSCBS模块由3×3深度可分离卷积（DSConv）、批量归一化（BN）与SiLU激活函数组成。

其中x为输入特征。与标准卷积相比，深度可分离卷积（DSConv）的主要优势是参数数量少、运算速度快，以此控制UAV-MDMamba的整体计算量。

二维选择性扫描

Mamba的顺序扫描方式适用于自然语言处理这类时间序列任务，但不适用于图像这类非因果型数据。若直接将Mamba用于二维图像，需先将二维图像展开为一维向量，这会破坏空间信息——这一问题在无人机航拍图像的输电线路隐患检测中尤为突出。因此，我们引入二维选择性扫描（SS2D）来解决该问题。

如图3c所示，输入特征块遵循四种不同的扫描路径（双向水平与垂直扫描），随后每条路径由独立的Mamba进行处理。Mamba采用选择机制，基于输入信息选择性地聚焦相关内容（即选择性状态空间模型），其定义为：

门控增强机制

我们发现，输电线路图像中隐患区域的占比通常极小，这导致单张图像中存在大量冗余信息与复杂干扰。因此，我们提出门控增强机制（GCE）模块，通过门控机制增强隐患区域并抑制干扰区域。

如图3d所示，GCE模块由两个互补分支构成：全局分支与局部分支，旨在捕捉多尺度上下文信息并提升特征选择性。全局分支的计算方式为

在局部分支的设计中，我们采用残差连接与轻量化深度可分离卷积，以增强对局部细节的捕捉能力。同时，我们提出一种门控机制，在增强局部特征的同时保留空间信息，其表达式为：

GCE模块整合了所有像素的全局依赖关系与局部特征，捕捉相邻特征间的上下文关联，其表达式为：

GCE模块能够自适应调整输出权重，习得聚焦隐患区域同时抑制背景的能力。它可以控制后续MDMamba模块的特征内容，且不会影响当前的特征学习过程。

补丁级推理增强

尽管采用了先进的网络架构，高精度输电线路隐患检测仍面临困境：小目标的部分隐患信息会在降采样过程中丢失，即便借助上下文建模也难以还原这些丢失的内容。因此，检测的关键在于确保隐患检测过程中信息损失最小化。我们提出一种简洁的PLIE模块，其核心是提升输入图像的分辨率，而非特征的分辨率。

如图4所示，PLIE的详细流程如下：

对于分辨率为H×W的无人机航拍图像，采用尺寸为S×S的滑动窗口，以非重叠方式将图像分割为H_P×W_P个补丁块，其中H_P=H/S、W_P=W/S。此外，还可设置重叠比例，以减少补丁块间的信息损失。
将每个补丁块放大至原始图像的H×W分辨率，这一步可有效缓解输入阶段的信息丢失问题。
推理阶段，将所有补丁块输入训练好的UAV-MDMamba，得到一系列粗粒度检测结果——这些结果不能直接作为隐患检测的最终结果，其主要问题是存在目标框重复的情况。
我们进一步设计后处理步骤（检测框合并与检测框面积筛选）作为过滤机制，以获取细粒度检测框：若两个目标框的交并比（IoU）大于设定的合并阈值，则将其合并为一个检测框，以此有效将跨补丁块的重复检测框合并为完整的目标框（合并阈值默认设为0.5）；此外，我们将训练集中每个隐患类别的平均面积作为先验信息，若预测类别的框面积超过或低于该先验平均尺寸的4倍，则将该检测框重新输入UAV-MDMamba进行二次检测。

PLIE是一种在线推理方法，不占用任何训练资源。对于单张无人机航拍图像，PLIE需要执行H_P×W_P次推理操作。在实际应用中，需平衡效率与性能，确保PLIE在不损失精度的前提下具备快速推理能力。此外，PLIE具有较强的泛化性，可与任意目标检测模型搭配使用以提升检测效果。

传统滑动窗口方法（如早期目标检测或语义分割中所用的方法）通常在训练阶段用于处理大图像或应对GPU内存限制，且一般在低分辨率下运行。相比之下，PLIE是一种推理阶段的增强策略，专门用于保留小隐患目标的高分辨率细节（这些细节在深度网络的降采样过程中易丢失）。其目标并非内存管理，而是在输入层面恢复分辨率以提升检测精度，这使得PLIE在实际架空输电线路环境中具有出色的应用潜力。

PART/5

实验及可视化

数据集

为定量评估各类模型在架空输电线路隐患检测中的性能，我们采集了无人机在田野、乡村、城镇等真实场景下拍摄的图像。本研究使用的无人机平台为大疆御3T，通过大疆Pilot2软件执行自动化巡检飞行：巡检航线通过导入输电线路塔坐标规划，飞行参数（如高度、速度）在航线预览后由无人机全自动执行，无需人工干预。机载重载相机配备1/2英寸CMOS传感器，有效分辨率4800万像素，视场角84°，光圈f/2.8，支持3840×2160@30FPS与1920×1080@30FPS的视频录制。

图1展示了部分图像示例，这些图像涵盖不同拍摄角度与姿态，这种多样性对于充分测试各类模型在真实场景中的鲁棒性与适应性至关重要。我们共采集21026张图像，经人工筛选、标注后构建成本研究的数据集，其中训练集、验证集、测试集分别包含15091张、3995张、1940张图像。

如表1所示，本研究聚焦架空输电线路中7类典型隐患（均为实际场景中常见威胁）；此外，部分隐患类别样本量较少（如塔头损坏（标签3）、横担腐蚀（标签4）），而铜铝过渡线夹（标签5）与销钉缺失（标签6）这两类隐患的尺度极小，即使通过目视巡检也难以准确识别。图5展示了代表性隐患类别的放大图像。

实现细节

每张图像的分辨率统一设置为640×640。UAV-MDMamba模型采用SGD优化器训练（动量设为0.937），训练轮数为150轮，初始学习率设为0.01，批次大小为8。训练过程中采用马赛克数据增强以提升模型训练效果；为增强模型对模糊、低光、运动模糊等图像退化问题的鲁棒性，训练阶段还应用了高斯模糊、高斯噪声注入、对比度调整、亮度调整等多种数据增强技术，使所提UAV-MDMamba模型能够学习各类视觉失真下的不变特征。PLIE模块的补丁块尺寸设为320×320，重叠比例为0.5。实验平台采用两台NVIDIAGeForceRTX3090显卡，操作系统为Ubuntu22.04。

实验结果

表2展示了UAV-MDMamba与YOLOv5、YOLOv7、YOLOv8、FasterR-CNN、DETR、Mamba-YOLO-World等检测模型的对比结果。UAV-MDMamba设计了两种模型尺度：适用于轻量化部署的UAV-MDMamba-T（小型），以及作为标准配置的UAV-MDMamba-B（基础型）。UAV-MDMamba的检测性能更优，其中YOLOv8是我们的主要对比模型：UAV-MDMamba-T的参数与浮点运算量（FLOPs）仅为YOLOv8-S的一半，但在mAP₅₀与mAP₅₀:₉₅指标上表现更优；同样，UAV-MDMamba-T在四项指标上均优于YOLOv5-S与YOLOv7-Tiny。UAV-MDMamba-B是更大尺度的版本，参数与FLOPs更多，但与其他大尺度模型（如YOLOv7、YOLOv8-M）相比，它以更少的参数与FLOPs实现了更优的检测结果，体现出效率与高性能的兼顾——具体而言，UAV-MDMamba-B的精确率（P）、召回率（R）、mAP₅₀、mAP₅₀:₉₅分别达到63.1%、67.6%、63.3%、39.7%。

我们还对比了经典模型FasterR-CNN与基于Transformer的DETR：这两类模型的参数与FLOPs显著更高，推理成本远高于YOLO系列与所提UAV-MDMamba；且与YOLO系列类似，FasterR-CNN与DETR的检测性能也弱于UAV-MDMamba。最后，我们与Mamba-YOLO-World-S（一种基于Mamba架构的开放词汇检测模型）进行对比，结果显示其检测性能不及所提UAV-MDMamba——作为通用模型，Mamba-YOLO-World在无人机隐患检测这类特定领域中表现欠佳，同时所需参数与FLOPs也显著更多。这凸显了我们的领域定制化设计在目标应用中实现更高效率与精度的优势。综上，实验结果表明，与其他模型相比，UAV-MDMamba在计算效率与检测精度上均有显著提升。

图6对比了YOLOv8搭配PLIE前后的效果：PLIE提升了YOLOv8对小目标的检测性能（见第一、二行），并减少了小目标的误检情况（见第三、四行）。综上，PLIE对小目标隐患检测具有增益效果且泛化性强。

如图7所示，UAV-MDMamba可成功检测出所有标签1类隐患；当移除MDMamba后，可视化结果显示有2处隐患被漏检。PLIE通过滑动窗口放大补丁块来增强目标捕捉能力：图7中，移除PLIE后，图像边缘的隐患无法被检测到。若同时移除MDMamba与PLIE，UAV-MDMamba的性能进一步下降，图7显示有3处标签1类隐患被漏检，这会严重影响电力安全传输。这些消融实验证实了MDMamba与PLIE在架空输电线路隐患检测中的重要作用。

我们进一步对MDMamba的内部结构（包括DSCBS与GCE）开展消融实验：DSCBS是轻量化模块，帮助Mamba更好地建模图像局部性；GCE通过学习门控机制，在上下文信息中增强前景目标、抑制背景目标。如表4所示，同时移除DSCBS与GCE会导致UAV-MDMamba性能整体下降；若MDMamba仅保留SS2D（即移除DSCBS与GCE），各项指标会进一步恶化。实验结果表明，仅使用基于Mamba的SS2D仍需结合其他方法来提升检测效果，而本研究提出的CNN与Mamba混合模块MDMamba，具备更强的空间感知能力与更稳健的检测性能。

可视化分析

图8展示了测试集上的推理结果可视化，我们对比了部分代表性目标检测模型：所提UAV-MDMamba-B在多数类别与测试案例中表现优于其他模型。其他模型因无人机拍摄导致隐患目标尺度较小，出现性能不佳、漏检较多的情况；而UAV-MDMamba-B对绝大多数目标都具备优异的检测性能。因此，UAV-MDMamba在架空输电线路隐患检测中具有出色的应用潜力。

失败案例

如图9所示，尽管UAV-MDMamba在定性与定量评估中均表现优异，但在极端条件下检测目标时仍存在局限性——尤其是面对尺寸极小或视觉外观严重退化的目标。例如在标签5（铜铝过渡线夹）这类复杂场景中，UAV-MDMamba偶尔无法生成可靠预测，导致漏检。这些局限性主要源于：网络多次降采样后，微小目标的特征表征不足；低分辨率区域缺乏细粒度上下文线索。这些案例凸显了无人机目标检测（尤其是应对尺度变化）领域仍面临的挑战。

我们承认这些问题尚未解决，并建议未来研究可探索自适应特征分辨率、注意力优化模块或混合多尺度融合等策略，以进一步增强对极小目标的检测鲁棒性。

有相关需求的你可以联系我们！

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗