无人机图像中的鸟类目标检测：使用 YOLOv5-ACT 提升精度与速度

针对无人机图像中鸟类目标检测的小目标漏检和背景干扰问题，提出改进的 YOLOv5-ACT 模型。通过引入注意力机制和通道增强技术，模型在保持实时性的同时显著提升了检测精度。实验显示 mAP 提升约 8.5%，并在边缘设备上实现了高效部署，适用于生态监测等场景。

雾岛听风发布于 2026/4/12更新于 2026/7/2534 浏览

无人机图像中的鸟类目标检测：使用 YOLOv5-ACT 提升检测精度与速度

引言

无人机技术在环境监测、野生动物保护和农业等领域的应用日益广泛，但如何高效准确地从无人机图像中检测鸟类目标仍然是一个挑战。传统的目标检测方法在复杂背景和小目标检测上表现不佳，而 YOLOv5 虽然已经相当强大，但在处理鸟类这类特殊目标时仍有提升空间。

无人机鸟类检测示意图

传统 YOLOv5 的局限性

YOLOv5 作为目标检测领域的明星模型，以其出色的性能和速度赢得了广泛认可。但在无人机图像中的鸟类检测任务中，它面临着几个主要挑战：

小目标检测困难：鸟类在无人机图像中通常只占很小的区域，传统检测方法容易漏检。
背景复杂干扰：自然场景中的树枝、云朵等容易与鸟类混淆，导致误检。
形状多变：鸟类在不同姿态下呈现不同形状，增加了检测难度。
速度与精度平衡：实时监测应用需要高精度，但也要求处理速度快。

这些问题限制了 YOLOv5 在鸟类检测任务中的性能表现，亟需针对性的改进方案。

YOLOv5-ACT 的核心改进

YOLOv5-ACT 在保留 YOLOv5 原有优势的基础上，引入了两大关键改进：注意力机制 (Attention) 和通道增强技术 (Channel Enhancement)，简称 ACT。

注意力机制 (Attention)

注意力机制模拟人类视觉系统的选择性关注能力，让模型能够'聚焦'于图像中的关键区域。在 YOLOv5-ACT 中，我们采用了改进的注意力模块：

class AttentionModule(nn.Module):
    def __init__(self, in_channels, reduction_ratio=16):
        super(AttentionModule, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.max_pool = nn.AdaptiveMaxPool2d(1)
        self.fc1 = nn.Conv2d(in_channels, in_channels // reduction_ratio, 1, bias=False)
        self.relu = nn.ReLU(inplace=True)
        self.fc2 = nn.Conv2d(in_channels // reduction_ratio, in_channels, 1, bias=False)
        .sigmoid = nn.Sigmoid()

     ():
        b, c, _, _ = x.size()
        avg_out = .fc2(.relu(.fc1(.avg_pool(x))))
        max_out = .fc2(.relu(.fc1(.max_pool(x))))
        out = avg_out + max_out
        weight = .sigmoid(out)
         x * weight

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

class ChannelEnhancement(nn.Module):
    def __init__(self, in_channels, out_channels, stride=1):
        super(ChannelEnhancement, self).__init__()
        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.act = nn.SiLU()
        # 通道注意力
        self.ca = AttentionModule(out_channels)
        # 特征融合
        self.conv_fuse = nn.Conv2d(out_channels*2, out_channels, kernel_size=1, bias=False)
        self.bn_fuse = nn.BatchNorm2d(out_channels)

    def forward(self, x):
        identity = x
        out = self.conv1(x)
        out = self.bn1(out)
        out = self.act(out)
        # 应用通道注意力
        out = self.ca(out)
        # 特征融合
        if out.shape != identity.shape:
            identity = F.interpolate(identity, size=out.shape[2:], mode='bilinear', align_corners=False)
        fused = torch.cat([out, identity], dim=1)
        fused = self.conv_fuse(fused)
        fused = self.bn_fuse(fused)
        return fused + out

模型	[email protected]	FPS	参数量	FLOPs
YOLOv5s	0.732	45	7.2M	16.5G
YOLOv5-ACT	0.817	42	7.8M	17.2G
YOLOv5m	0.756	32	21.2M	49.0G
YOLOv5-ACT(large)	0.843	28	22.5M	50.3G

配置	[email protected]	改进说明
Baseline(YOLOv5s)	0.732	原始模型
+ 注意力机制	0.778	只添加注意力模块
+ 通道增强	0.796	只添加通道增强
YOLOv5-ACT	0.817	完整模型

无人机图像中的鸟类目标检测：使用 YOLOv5-ACT 提升精度与速度

无人机图像中的鸟类目标检测：使用 YOLOv5-ACT 提升检测精度与速度