LAM-YOLO: 无人机小目标检测模型的光照遮挡注意力机制

论文原文 (Paper)：https://arxiv.org/abs/2411.00485

1. 核心思想

本文针对无人机航拍图像中目标尺寸多变、遮挡严重、光照复杂等挑战，提出了一种名为 LAM-YOLO 的新型目标检测模型。该模型以 YOLOv8 为基础，引入了 光照 - 遮挡注意力机制 (LAM) 来增强模型在复杂光照和遮挡环境下的特征提取能力，并利用 内卷 (Involution) 模块改善特征层之间的交互。此外，通过引入 辅助小目标检测头 和改进的 SIB-IoU 损失函数，显著提升了对微小和密集目标的检测精度，在 VisDrone2019 数据集上实现了 7.1% 的 mAP 提升。

2. 背景与动机

文本角度总结：无人机航拍图像中的小目标检测面临着独特的挑战：目标尺寸极小且变化大、易被遮挡、光照条件多变（如强光或昏暗）。现有的 YOLO 系列模型虽然速度快，但在这些复杂场景下往往出现漏检和误检。
1. 尺寸问题：传统 YOLO 的检测头对于远距离、极微小的目标（如行人、自行车）感受野不足。
2. 特征提取不足：标准卷积难以捕捉全局光照变化和遮挡下的细微特征，且容易将目标特征淹没在背景噪声中。
3. 回归精度：现有的 IoU 损失函数在处理小目标时，对位置偏差不够敏感，导致定位不准。因此，本文旨在设计一种能够自适应光照变化、抗遮挡且对小目标极其敏感的检测框架。
动机图解分析：
- 图 1 (Fig. 1): 挑战展示
  - (a) 密集小目标：展示了密集的行人和车辆，说明了目标极小且易混淆。
  - (b) 遮挡：展示了树木遮挡下的车辆，说明了仅靠局部特征难以识别完整目标。
  - © & (d) 极端光照：分别展示了强光过曝和夜间昏暗场景，说明了光照变化会严重影响特征的显著性。
  - 总结：这四幅图直观地列出了 LAM-YOLO 想要解决的三大核心痛点：小、遮、光。这也引出了为何需要引入专门的 LAM 注意力模块和辅助检测头。
- 图 10 (Fig. 10): LAM 层数热力图对比
  - 现象：随着 LAM 层数从 0 增加到 6，热力图（Grad-CAM）对目标的关注度逐渐增强，背景噪声被抑制。
  - 分析：这直观地证明了 LAM 模块在提取关键特征、抑制复杂背景干扰方面的有效性，验证了引入该模块的动机。

3. 主要贡献点

[贡献点 1]：提出了光照 - 遮挡注意力模块 (LAM) 设计了一种混合注意力机制，结合了通道注意力和基于窗口的自注意力。它利用全局统计信息和强大的局部特征提取能力，专门用于解决光照变化和遮挡带来的特征模糊问题，使模型能'看清'暗处或被遮挡的目标。
[贡献点 2]：改进了检测头与特征融合 (Auxiliary Heads & Involution) 在 YOLOv8 原有三个检测头的基础上，增加了两个专门针对微小目标的辅助检测头（160x160 和 320x320 分辨率），显著降低了小目标的漏检率。同时，在 Neck 部分引入 Involution（内卷） 模块，增强了不同尺度特征层之间的交互，提高了特征表示的丰富性。