即插即用系列 | 2024 SOTA LAM-YOLO : 无人机小目标检测模型

优质文章学习记录

10 Apr 2026 — 10 min read

论文名称：LAM-YOLO: Drones-based Small Object Detection
on Lighting-Occlusion Attention Mechanism YOLO

论文原文 (Paper)：https://arxiv.org/abs/2411.00485

GitHub 仓库链接：https://github.com/AITricks/AITricks
哔哩哔哩视频讲解：https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

1. 核心思想

本文针对无人机航拍图像中目标尺寸多变、遮挡严重、光照复杂等挑战，提出了一种名为 LAM-YOLO 的新型目标检测模型。该模型以 YOLOv8 为基础，引入了 光照-遮挡注意力机制 (LAM) 来增强模型在复杂光照和遮挡环境下的特征提取能力，并利用 内卷 (Involution) 模块改善特征层之间的交互。此外，通过引入 辅助小目标检测头 和改进的 SIB-IoU 损失函数，显著提升了对微小和密集目标的检测精度，在 VisDrone2019 数据集上实现了 7.1% 的 mAP 提升。

2. 背景与动机

文本角度总结：
无人机航拍图像中的小目标检测面临着独特的挑战：目标尺寸极小且变化大、易被遮挡、光照条件多变（如强光或昏暗）。现有的 YOLO 系列模型虽然速度快，但在这些复杂场景下往往出现漏检和误检。
1. 尺寸问题：传统 YOLO 的检测头对于远距离、极微小的目标（如行人、自行车）感受野不足。
2. 特征提取不足：标准卷积难以捕捉全局光照变化和遮挡下的细微特征，且容易将目标特征淹没在背景噪声中。
3. 回归精度：现有的 IoU 损失函数在处理小目标时，对位置偏差不够敏感，导致定位不准。
  因此，本文旨在设计一种能够自适应光照变化、抗遮挡且对小目标极其敏感的检测框架。
动机图解分析：
- 图 1 (Fig. 1): 挑战展示
  - (a) 密集小目标：展示了密集的行人和车辆，说明了目标极小且易混淆。
  - (b) 遮挡：展示了树木遮挡下的车辆，说明了仅靠局部特征难以识别完整目标。
  - © & (d) 极端光照：分别展示了强光过曝和夜间昏暗场景，说明了光照变化会严重影响特征的显著性。
  - 总结：这四幅图直观地列出了 LAM-YOLO 想要解决的三大核心痛点：小、遮、光。这也引出了为何需要引入专门的 LAM 注意力模块和辅助检测头。
- 图 10 (Fig. 10): LAM 层数热力图对比
  - 现象：随着 LAM 层数从 0 增加到 6，热力图（Grad-CAM）对目标的关注度逐渐增强，背景噪声被抑制。
  - 分析：这直观地证明了 LAM 模块在提取关键特征、抑制复杂背景干扰方面的有效性，验证了引入该模块的动机。

3. 主要贡献点

[贡献点 1]：提出了光照-遮挡注意力模块 (LAM)
设计了一种混合注意力机制，结合了通道注意力和基于窗口的自注意力。它利用全局统计信息和强大的局部特征提取能力，专门用于解决光照变化和遮挡带来的特征模糊问题，使模型能“看清”暗处或被遮挡的目标。
[贡献点 2]：改进了检测头与特征融合 (Auxiliary Heads & Involution)
在 YOLOv8 原有三个检测头的基础上，增加了两个专门针对微小目标的辅助检测头（160x160 和 320x320 分辨率），显著降低了小目标的漏检率。同时，在 Neck 部分引入 Involution（内卷） 模块，增强了不同尺度特征层之间的交互，提高了特征表示的丰富性。
[贡献点 3]：提出了 SIB-IoU 损失函数
针对小目标回归难的问题，提出了一种新的边界框回归损失 SIB-IoU。它引入了比例因子 (Ratio) 来生成不同尺度的辅助边界框，计算 Soft Intersection，从而在不同重叠度下都能提供有效的梯度，加速收敛并提高定位精度。

4. 方法细节

主干网络 (Backbone)：采用 CSPDarkNet 提取特征。在 Backbone 的末端，插入了 LAM 模块，用于在特征进入 Neck 之前增强其对光照和遮挡的鲁棒性。
颈部网络 (Neck)：
1. FPN + PAN：采用特征金字塔和路径聚合网络进行多尺度融合。
2. Involution 模块：在 FPN 的横向连接处引入 Involution，替代传统卷积，以增强跨通道和跨空间的特征交互。
3. LAM 模块：在 PAN 的输出阶段也嵌入了 LAM，进一步提纯融合后的特征。
检测头 (Head)：
- 5 个检测头：除了原有的 P3, P4, P5（针对大中小目标），新增了 P1, P2 两个高分辨率检测头，专门负责极微小目标的检测。
- SIB-IoU Loss：用于训练阶段的边界框回归。

核心创新模块详解：
理念与机制总结：
- 核心理念：“关注微小，适应环境”。
- LAM 机制：通过模拟人类视觉对光照和遮挡的适应性（非视觉效应），动态调整特征响应，使得在暗处或遮挡下的目标特征依然显著。
- SIB-IoU 机制：通过引入缩放因子 Ratio，人为构造“内框”和“外框”。当预测框与真值框重叠较少时，外框能提供梯度；当重叠较多时，内框能提供更精细的约束。这解决了小目标 IoU 变化剧烈导致的训练不稳定问题。
图解总结：
- Fig. 2 清晰展示了 5 头架构和 LAM/Involution 的插入位置，强调了对多尺度（特别是小尺度）的极致追求。
- Fig. 3 详细拆解了 LAM 的内部结构，展示了如何通过残差连接堆叠多种注意力模块（VAB, OLAB, CAB）来逐步提炼特征。
- Fig. 7 的 Precision-Recall 曲线显示，LAM-YOLO（粗蓝线）在所有阈值下都包络了其他模型，证明了其综合性能的优越性。

模块 B：内卷模块 (Involution)（对应 Figure 4）

模块 A：光照-遮挡注意力模块 (LAM)（对应 Figure 3）

整体网络架构（对应 Figure 2）：

5. 即插即用模块的作用

本文提出的模块通用性较强，可应用于其他目标检测任务：

LAM 模块 (Lighting-occlusion Attention Module)
- 适用场景：低光照、强光干扰、雾天或遮挡严重的检测/分割任务。
- 具体应用：
  - 自动驾驶：在夜间或隧道场景下，将 LAM 插入到检测器的 Backbone 或 Neck 中，提升对暗处车辆和行人的感知。
  - 安防监控：用于处理光照变化剧烈的监控视频，减少误报。
SIB-IoU Loss (Soft Inner-section Bounding-box IoU)
- 适用场景：小目标检测、高精度定位任务。
- 具体应用：
  - 通用目标检测：可以直接替换现有的 CIoU, DIoU, SIoU 损失函数。在训练 YOLO 或 R-CNN 系列模型时，只需修改 Loss 计算公式，即可加速收敛并提升最终的 mAP，特别是对于小物体（Small Objects）的提升尤为明显。
Auxiliary Detection Heads (辅助小目标检测头)
- 适用场景：无人机航拍、卫星遥感、显微镜图像分析。
- 具体应用：
  - 微小瑕疵检测：在工业质检中，如果目标极其微小（如像素占比 < 1%），可以借鉴此策略，在现有的 P3-P5 层级下继续上采样，增加 P2 甚至 P1 层级的检测头，专门负责“显微镜级”的检测。