多模态学习（五）：基于可变形注意力的无人机可见光 - 红外图像配准算法

无人机双模态感知中，可见光与红外图像因安装位置、镜头视角不一致导致空间错位，影响目标检测与跟踪。可见光 - 红外图像配准旨在通过算法计算将红外图像在空间上与可见光图像对齐。过去研究常假设图像已对齐，但实际应用中这属于理想情况，不解决此问题，无人机双模态感知的许多高级应用难以落地。

近期研究提出了一套基于 Transformer 架构和'可变形注意力'的解决方案。该方法不仅效果好且效率高，适合在计算资源有限的无人机上运行。本文将从算法解决的难题入手，解析其如何利用多尺度特征和注意力机制实现高效配准。

给无人机做可见光 - 红外图像配准面临以下主要挑战：

无人机飞行高度随时变化，导致同一目标（如汽车）在图像中的尺度差异巨大。飞得高时目标仅为几像素，飞得低时则占满画面。这种剧烈的尺度变化对特征提取要求极高。传统的单尺度特征提取网络容易丢失小目标信息。因此，多尺度特征表示是解决该问题的关键，网络需同时捕捉全局轮廓和局部细节。

可见光图像靠反射光成像，富含颜色、纹理；红外图像靠热辐射成像，反映温度分布，缺乏纹理。两者成像原理不同，如同说不同的语言。下图展示了这种差异：左侧为清晰的街道可见光图，右侧为同一场景的红外图，仅显示车辆和行人的热轮廓。

直接用匹配可见光图像的传统方法（如 SIFT 特征点）去匹配红外图像效果很差，因为它们找不到共同的特征。这就要求我们的算法不能简单做特征匹配。

更多推荐文章