面向电力线场景下无人机返航任务的尺度不变逼近检测器

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

https://pmc.ncbi.nlm.nih.gov/articles/PMC11852856/pdf/biomimetics-10-00099.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

无人机为电网维护提供了高效解决方案,但返航过程中的避障问题面临跨越电力线的挑战,尤其对于计算资源有限的小型无人机而言更为突出。传统视觉系统难以检测纤细、复杂的电力线,常出现漏检或误判。尽管深度学习方法提升了图像中静态电力线的检测效果,但在动态场景下仍难以实时识别碰撞风险。

PART/1

     概述   

受视叶巨运动检测器(LGMD)通过检测逼近目标的连续、聚集运动轮廓,从而区分背景中稀疏、非相干运动的机制启发,本文提出一种尺度不变逼近检测器(SILD)。SILD通过视频帧预处理实现运动检测,利用注意力掩码增强运动区域,并模拟生物唤醒机制识别逼近威胁、抑制噪声;同时可预测高速飞行中的潜在碰撞,克服运动视觉的局限,确保对不同尺度逼近目标保持一致的检测灵敏度。

将SILD与现有静态电力线检测方法(包括霍夫变换、基于空洞卷积编解码架构的D-LinkNet)进行对比,结果表明SILD在检测精度与实时处理效率间实现了有效平衡,适用于对高精度、低延迟性能要求严苛的无人机电力线检测场景。此外,本文在多种条件下评估了模型性能,并成功将其部署于无人机嵌入式板卡,开展电力线场景下的避障测试,为电力线场景中的无人机避障提供了新思路。

PART/2

     背景   

智能电网的发展对先进检测技术提出了需求,包括攀爬机器人、直升机及无人机(UAV)等。其中,无人机凭借低成本、高效率及精准检测能力,成为应用最广泛的平台。然而,当前无人机通常依赖预设航线,在应急或自定义指令返航任务中,仍缺乏动态避障的自适应能力,尤其在应对交叉电力线时问题突出。

电网企业报告显示,检测无人机在返航过程中频繁发生撞线事故。该问题源于电力线纤细、纹理特征不明显,难以实时感知其碰撞风险。现有的无人机碰撞检测方法,如能耗较高的激光扫描、依赖目标可检测纹理的传统方法,或基于深度学习的电力线检测模型,仍存在显著局限。这些局限因网络架构复杂、对大规模数据集依赖度高,以及电源管理与载荷能力相关的硬件约束而进一步加剧,无法直接应用于电力线场景下高速运动的快速碰撞预警。

在逼近目标检测中,视叶巨运动检测器(LGMD)对目标尺寸并不敏感,但其对逼近目标轮廓的检测依赖于一个假设:逼近目标的轮廓具有高度聚集性。该假设基于以下理念:规则目标的边缘轮廓在运动视觉中,因接近时运动速度更高而呈现连贯且粗壮的特征,而背景运动通常产生稀疏、非相干的视觉刺激。在前期研究中,我们通过引入线性高速轮廓增强技术改进了模型,即逼近电力线检测(LPD)。该方法可从稀疏轮廓中选择性提取线性目标产生的特征。然而,该注意力机制也无意中过滤了非线性目标,限制了其同时检测多尺度障碍物的能力,难以满足实际应用需求。在返航任务中,无人机可能面临交叉电力线、树木、建筑物,甚至其他线路上的作业人员(如图1a所示)。

因此,需关注所有这些常规与非常规尺寸障碍物的碰撞风险。对于图像处理模型而言,获取跨尺度注意力能力难度较大。若将该复杂任务的要素抽象化,可得到图1b所示的类比场景。在此场景中,LPD可检测逼近电力线(红色标注),但对中心具有威胁的立方体不敏感;而引入分布式突触前连接机制的LGMD(D-LGMD)仅能响应两个常规尺寸的立方体(蓝色标注),且对右侧无威胁立方体的响应强于中心威胁立方体。

此外,相机自身运动、位置导致的灵敏度变化等负面因素尚未得到解决。现有文献中,大量研究致力于改进仿生逼近目标检测算法,尤其是在抑制自身运动引发的噪声方面。一种常用方法是通过优化技术估计并补偿相机运动,但这通常需要大量计算资源。Zhao提出的D-LGMD通过角速度判别,解决了无人机敏捷飞行过程中的自身运动噪声问题。

为解决这些局限,本文提出一种带反馈注意力的尺度不变逼近检测器(SILD),扩展了D-LGMD的尺寸敏感范围,使其对不同尺寸的逼近目标均能产生一致响应。文献也验证了该原理的可行性。

如图2所示,加法注意力模块在保持对常规尺寸目标响应能力的同时,增强了对小目标(如电力线)的灵敏度;此外,反馈机制提升了刺激响应的精度,尤其针对电力线目标。

PART/3

     新框架解析   

本节详细阐述所提模型的架构,其大致可分为三个模块:预处理模块、注意力模块和基于LGMD的模块。如图2所示,预处理模块对输入图像进行捕获与平滑处理;注意力模块则利用基于LGMD的逼近目标检测器生成的注意力图,增强线特征所在潜在区域的权重。注意力图由专用线特征核(以红色小立方体表示)生成,并反馈至注意力模块。该注意力机制以加法形式实现,使增强后的图像在保留常规尺寸目标细节的同时,强化潜在电力线特征。随后,增强图像被输入基于LGMD的模块,该模块对图像速度进行判别,从背景噪声中提取逼近的电力线与障碍物。值得注意的是,本节通过卷积方程和更复杂的减法公式解释所提模型的数学框架,以更好地模拟神经生物学信号整合过程。该方法将仿生建模与实际实现约束相结合。鉴于我们的目标是构建兼具计算功能与生物合理性的模型,信号过程宜以连续积分形式表示,因为神经递质的作用范围、时延等因素不会像输入图像那样被离散化。在以下小节中,我们首先在2.1节分析并解释由位置引起的灵敏度不均问题,然后在2.2节描述整体神经网络结构,并在2.3、2.4和2.5节详细介绍其各组成部分。

为便于复现本研究工作,所提框架的分步实现流程如下:首先执行数据预处理,即从视频帧中读取图像数据,并采用高斯模糊技术降低噪声;随后计算连续帧间的帧差以表示运动信息,再通过矩阵处理对这些帧差进行位置校正。在注意力机制处理阶段,通过卷积提取水平与垂直线特征,施加侧向抑制,并利用最终的注意力掩码增强原始图像中的运动区域。计算DPC层以模拟神经层的生物兴奋与抑制机制,生成用于运动检测的视觉信号。分组层通过各向异性核、对兴奋响应进行阈值处理,并积分计算膜电位(MP),从而增强逼近目标信息、抑制噪声并检测逼近威胁。所提框架的伪代码如算法1所示。

位置引起的灵敏度不均分析与校正

本节分析并解释由位置导致的图像运动偏差,该偏差会使逼近目标检测器的响应偏离真正的逼近威胁,而偏向擦过性目标。为解决该问题,同时最小化无人机机载系统的计算负载,本文提出一种相对简便的方案:引入基于高斯模型的校正函数。

从图3相机(蝗虫)视角可见,当逼近目标向相机靠近时,会穿过相机视场;视场内的角速度由目标速度、距离及角位置共同决定。换言之,这些因素间存在如下关系:

所提视觉系统的架构

图4展示了所提视觉系统中的神经通路,该系统始于视网膜的图像采集,随后通过感光器层(photoreceptorlayer)、DPC层和G层进行连续处理。

小眼(ommatidia)首先对视野(FOV)内的视觉信息进行平滑处理。接着,注意力被引导至感兴趣区域,以增强图像中的线条特征信号。注意力处理后输出的优化图像包含了电线和常规尺寸物体的信息。

随后,该图像被输入感光器层,视觉运动信息在此被记录,并进一步交由包含兴奋通路与抑制通路的DPC层处理。

最后,在滤除衰减的兴奋信号后,LGMD细胞群会对处理后的图像进行分析,以检测电线、常规尺寸物体等具有威胁性的障碍物。

预处理模块

预处理模块的功能由视网膜层中的小眼实现,这些小眼会捕获亮度信息,并使用高斯核(Gaussiankernel)对其进行平滑处理。形式上,预处理模块可被定义为:

其中,GσP(x,y)是一个标准差为σP的高斯核。

L(x,y,t)表示在时刻t、像素(x,y)处输入的单通道图像的亮度。

注意力模块

注意力模块用于提升电线的识别效果,并降低其他物体的干扰,如图2所示。该模块会增强电线的权重,同时弱化图像中的其他元素。

为实现这一目标,我们会根据电线的亮度分布生成注意力核。注意力核的集合由方向集合Θ定义,单个注意力核的构造方式如下:

其中,σ、θ∈Θ和ξ分别代表中心区域的尺寸、方向和空间纵横比。A和B为常数系数。[x]+和[x]−分别表示max(x,0)和min(x,0)。

为提升图像中线条特征的权重,本模块引入了注意力核。

图5所示,该核能够增强沿方向θ上、中心狭长区域与两侧存在明显亮度差异的感兴趣区域。注意力处理过程包括将平滑后的图像,与包含强化后的潜在线条特征的注意力图进行叠加。

其中,η为注意力系数,A(x,y,t)是在基于LGMD的神经网络内部反馈的注意力图,如图2所示。经过注意力处理后,增强图像Rs(x,y,t)中感兴趣区域的亮度会得到提升。

基于LGMD的神经网络

LGMD(大运动检测神经元)的优异表现引发了越来越多的研究关注,许多由LGMD衍生而来的神经网络都是基于相关生物学研究构建的。在本文提出的模型中,我们采用的基于LGMD的神经网络是D-LGMD模型,它能够在无人机的敏捷飞行中高效感知迫近的威胁。

D-LGMD由三个按顺序排列的神经层构成,即感光器层、分布式突触前层和分组层。注意力模块输出的增强图像Rs(x,y,t)会由D-LGMD神经网络中的这三层依次处理。

基于LGMD的神经网络会结合我们模型中的注意力核,提取电线上迫近物体的信息。随后,这些数据会反馈至加法注意力模块,再由基于LGMD的神经网络进一步处理,以评估包括电线和常规尺寸物体在内的迫近威胁。

因此,基于LGMD的神经网络在结构上可分为两部分:一部分用于在注意力处理过程中获取包含电线信息的注意力图,另一部分则是从感知到的环境信息与注意力图中提取迫近物体信息的主要方法。

PART/4

     基准测试与对比分析   

位置校正的有效性

在本研究早期,我们发现偏离中心的模糊物体容易干扰D-LGMD模型,进而影响电线检测。尽管我们在2.1节从理论上分析了迫近物体的位置差异会导致速度方差不均,但实际情况比图3所描述的更为复杂。因此,我们开展了一系列实验,首先在模拟无人机场景中可视化位置诱导的灵敏度不均的影响,再评估所提位置校正方法的有效性。

图6直观展示了位置诱导的灵敏度不均的影响。在图6a中,无人机正朝向三个水平排列的相同黑色方块移动。图6b为该场景的俯视图,无人机(传感器)沿红色虚线箭头所示轨迹飞行。中心方块位于传感器视野的中心,另外两个方块则以相等的偏心距位于视野边缘附近。图6c展示了感光器层(P层记录的图像运动)捕获到的初始不均强度效应。值得注意的是,图6d显示D-LGMD的视觉处理过程会加剧这种差异:由于速度选择机制,模型对中心方块的响应被抑制,导致对无威胁方块的响应被强化,从而产生误导性结果。

为测试位置校正对缓解该影响的有效性,我们在D-LGMD上进行了消融实验(该校正函数是通用的,可用于减少位置诱导的灵敏度不均,而非仅针对电线检测),因此我们将其与原始D-LGMD在有无校正函数的情况下进行了对比,以进行综合评估(图7-9)。

为无人机捕获的示例图像(1920×1080);在该场景中,中心黑色方块正沿碰撞轨迹接近无人机,而干扰方块位于视野边界附近。图8展示了模型的逐像素响应随位置的变化,其中像素沿x轴选取(对应图7中的红色虚线),以聚焦于水平位置。图9则可视化呈现了有无位置校正时D-LGMD的整体响应。

引入注意力模块的主要目的是解决原始D-LGMD模型无法检测对无人机构成威胁的电线这一问题。我们通过对比所提模型在有无注意力模块时的表现,来评估该模块的有效性。实验设置以及时刻t0时输入的分辨率为1280×720(宽×高)的图像如图10所示。

为了更直观地展示注意力模块在信号处理中的工作方式,我们在采样时刻t=t0固定x=x0=570(对应图10中的垂直红色虚线),沿y轴观察输入数据及对应的神经层输出。

图11中,我们用虚线标注了y轴上的三个位置,分别为y=274,300,310。y=274的位置对应白色方块的上边缘。我们在实验中特意加入了边缘,因为这类边缘在现实场景中很常见,并且通常是影响电线检测模型性能的最主要噪声来源。y=300和310的位置对应两条电线,这也是检测的主要目标。

图10中垂直红色虚线对应的输入信号信息(即亮度信息)如图11a所示。在y轴方向上,三个关键位置(白色方块的上边缘和两条电线)的亮度发生了剧烈变化。包含/不包含注意力模块时的视网膜神经输出如图11b所示,该图反映了输入图像的强度。注意力模块会选择性地显著增强电线所在区域,同时忽略无威胁的边缘(输入像素强度值被归一化至(0,1)区间;而由于神经处理会逐像素增强感兴趣的信息,分层输出并不受限于此范围)。

在下一层中,感光器层(P层)会捕获亮度变化的信息。图11c对比了包含/不包含注意力模块时感光器神经层的输出。与图11a中捕获的图像亮度不同,P层中电线的强度特征鲜明,这是因为在运动视觉中,迫近的目标通常会产生更强的图像速度。经过注意力处理后,电线y=300、y=310的速度值相较于无注意力模块时进一步提升。而白色方块上边缘y=274的响应未被增强,因为其速度过小,在注意力处理过程中被过滤掉了。图11d是无注意力增强结果的放大视图,有助于清晰观察三个位置的响应强度关系。图11e为DPC层的输出,该层通过兴奋与抑制的相互作用过滤掉了低速度信息。

尺寸不变迫近检测器的特性

所提模型中的注意力机制采用加法形式,已有研究表明其性能略优于乘法形式。此外,加法注意力机制保留了原始模型的特性,确保所提模型能够同时检测迫近的电线和常规尺寸的物体。我们通过与原始D-LGMD模型的对比实验,验证了这种尺寸不变特性。如图12所示,SILD模型可同时感知迫近的电线和方块物体;而原始D-LGMD模型仅能在无人机接近电线时,对白色方块产生响应。

不同场景下的模型性能

为评估算法性能,我们需要选取多种典型且具有挑战性的环境,这些环境需覆盖虚幻引擎平台上由AirSim生成的不同场景与气候条件。这些背景干扰在复杂度上具有明显差异,例如雪地、平原(该场景的G层输出将在3.6节介绍,因此不在图14中重复展示)和城市,它们属于不同颜色的环境,并伴随可能以树林、建筑等形式出现的干扰环境;雨天和落叶会增加图像噪声,导致误检率上升;雾天和低光照环境则可能削弱障碍物的纹理特征。

真实场景与合成数据集的对比

由于电线检测是无人机迫近电线检测中最具挑战性且最关键的任务之一,我们在真实场景与合成数据集上,对所提模型、D-LGMD模型、D-LinkNet模型和霍夫变换进行了电线检测的对比实验。实验输入图像尺寸为512×512像素,对比实验评估了四种模型的性能,结果如图16所示,并在表2中进行了定量分析。

真实飞行验证

我们将所提避障模型部署在嵌入式计算平台NVIDIAOrinNX上,并与单目相机吊舱G1集成,构建了四旋翼无人机避障系统,如图17b所示。

PART/5

     挑战与未来方向   

本文提出了一种适用于复杂无人机电线检测场景的视觉系统。该模型结合仿生迫近物体检测器与注意力-反馈结构,解决了从极小到常规尺寸的多尺度物体检测这一挑战性任务。为减轻检测过程中近距物体的干扰,我们提出了一种位置校正机制以提升检测精度。为系统地将我们的方法与其他运动视觉方法(包括基于深度学习的技术)进行对比,我们针对电线检测任务设计了一个由连续第一视角(FPV)图像序列组成的小型数据集。此外,我们评估了所提模型在不同背景、图像噪声和低纹理特征等多种条件下的性能,并将模型部署到无人机机载板卡上,成功在电线场景中完成了基础避障任务。

实验结果表明,基于运动视觉的电线检测器在像素级电线检测、计算效率和碰撞感知方面表现出色。我们的研究为复杂电线环境下的尺寸不变迫近物体检测提供了一种计算高效的解决方案,在计算机视觉和基于无人机的电线检测领域具有重要的应用潜力。

LGMD模型在处理多样化场景时展现出显著的可扩展性。传统上,LGMD被认为存在局限性——在轮廓边缘小、速度慢或对比度低等特殊条件下,它难以检测迫近物体;当扩展用于检测这类特殊物体时,可能会对背景运动产生误报响应。为解决这些挑战,我们提出选择性增强特定物体的运动视觉特征(例如电线的独特形状);同时,通过特征聚合使增强后的特征更连贯、更密集。这些增强后的特征被反馈作为LGMD的中间输入,提升了其在复杂动态环境中检测物体的敏感性与稳健性。我们的方法表明,LGMD具有这样的可扩展性:在不违背LGMD模型背景运动过滤基本假设的前提下,可通过利用特定目标的形状特征来增强对该目标的感知。

为进一步提升模型性能,未来的优化将聚焦于以下方面:

1.在触发条件设计上,将探索基于G层输出的特征提取、运动分割等图像处理技术,以提升模型的电线检测精度;

2.在离线控制策略上,将采取提升飞行高度等措施防止过早触发着陆,使无人机能够继续执行返航任务;

3.考虑到模型对计算资源的需求较低,未来工作将探索通过集成多方向相机或全景相机来扩展避障能力,从而提升系统的稳健性与适应性。

有相关需求的你可以联系我们!

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!


往期推荐 

🔗

Read more

OpenCode:开源 AI Coding Agent 技术与行业分析

OpenCode:开源 AI Coding Agent 技术与行业分析

核心发现摘要 OpenCode 是当前 AI 编程工具领域最活跃的开源项目之一。截至 2026 年 2 月,该项目在 GitHub 上已获得 99.8K Star,月活跃开发者超过 250 万,支持 75 种以上大语言模型提供商。 OpenCode 的核心价值在于打破供应商锁定:代码基于 MIT 许可证完全开源,架构支持本地模型部署以保障隐私,并独创 Plan/Build 双模式工作流,为开发者提供高度的灵活性与控制权。 商业模式上,OpenCode 与 Claude Code、Cursor 等闭源工具的订阅制不同,采用按需付费模式。通过 OpenCode Zen 服务,开发者可免费使用 Big Pickle、Kimi K2.

By Ne0inhk

Git常用指令

Git 常用50个核心操作命令(附详细说明) 以下按仓库初始化与配置、文件状态与暂存、提交与日志、分支管理、远程仓库、合并与变基、标签、撤销与回滚、LFS大文件、高级实用十大场景分类,覆盖开发全流程高频操作,命令简洁且标注适用场景,新手也能直接套用。 一、仓库初始化与全局配置(5个) 主要用于首次使用Git的环境配置、本地仓库创建,配置后全局生效(除非单独修改仓库配置)。 1. git config --global user.name "你的用户名" 配置Git全局提交用户名(GitHub/GitLab的用户名,必填)。 2. git config --global user.email "你的邮箱" 配置Git全局提交邮箱(与GitHub/GitLab绑定的邮箱,必填)。 3.

By Ne0inhk
1.5k stars!阿里开源 PageAgent:让 AI 直接“住进“你的网页,用自然语言操控一切!

1.5k stars!阿里开源 PageAgent:让 AI 直接“住进“你的网页,用自然语言操控一切!

阿里开源 PageAgent:让 AI 直接"住进"你的网页,用自然语言操控一切 不需要浏览器插件,不需要 Python,不需要截图——一行 JS,让你的网页秒变 AI 智能体。 一、先说痛点:Web 自动化为什么这么难? 如果你用过 Selenium、Playwright,或者最近流行的 browser-use,你一定遇到过这些头疼的问题: * 环境太重:得装 Python、headless 浏览器、各种依赖,部署复杂,维护成本高; * 依赖截图 + OCR:很多方案靠多模态模型"看图操作",慢、贵、还不准; * 权限门槛高:要控制浏览器,往往需要特殊权限甚至操作系统级别的访问; * 对现有产品改造成本大:

By Ne0inhk