遥感时序视觉语言模型:技术原理与应用综述
引言
遥感技术通过卫星、无人机等多种平台获取地球表面的图像信息,在环境监测、城市规划、灾害预警和评估等关键领域中发挥着重要作用。早期的遥感图像解译主要集中于单时相图像的分析,包括土地覆盖分类、物体检测和语义分割等任务。然而,单时相图像仅反映特定时刻的表面状况,无法捕捉跨时间的动态变化。
随着遥感技术和设备的快速进展,获取多时相遥感图像的能力得到了显著提高。多时相遥感图像提供了不同时间点下某些位置的表面特征信息,为地表变化的动态监测开辟了新途径。这一时序维度至关重要,因为它使研究人员能够分析随时间变化的趋势,从而对环境动态有更全面的了解。早期的时序图像理解主要集中于变化检测技术,通过比较不同时间段的图像来定位变化区域,如植被覆盖变化或新建筑物的出现。然而,变化检测通常仅在视觉层面上检测变化位置,缺乏对变化的更高层次语义理解,如变化对象的类型、变化过程中的状态,以及对象之间的关系。
近年来,像 Llava 和 GPT-4 等视觉 - 语言模型(VLMs)取得了突破性进展,推动了多模态研究领域对视觉 - 语言模型的关注。VLMs 结合了计算机视觉和自然语言处理技术,能够全面理解视觉和文本信息。与专注于单一图像模态的视觉模型不同,VLMs 不仅识别图像中的目标对象,还理解它们之间的关系,生成描述性语言或回答问题。这一能力在遥感领域具有巨大的应用潜力。在遥感领域,已有研究探讨了各种视觉 - 语言模型,如图像描述、视觉问答(VQA)、视觉问题生成、图像检索和视觉定位等。一些近期的研究探索了基于大型语言模型(LLMs)的遥感视觉语言模型,如 RSGPT、GeoChat、H2RSVLM、LHRS-Bot 和 EarthGPT。然而,这些 VLMs 主要关注单时相遥感图像,无法实现多时相遥感图像的理解。
随着 VLM 的不断发展,针对多时相遥感图像的研究进入了一个新的发展阶段。研究人员越来越多地探索专为时序图像理解设计的遥感时序视觉 - 语言模型(RS-TVLMs),涉及变化描述和变化视觉问答等任务。RS-TVLMs 的研究丰富了时序图像解译的工具。语言作为人类沟通和知识的载体,在融入时序图像分析时能够增强模型的高层次理解。通过将时序视觉信息与语言结合,RS-TVLMs 不仅可以识别目标和变化,生成描述性文字,回答相关问题,还能进行多模态交互,从而将时序图像的解译扩展到超越单纯的视觉判断。
目前,相关研究数量正在迅速增加。尽管 RS-TVLMs 的研究兴趣日益增长,但系统性的综述仍然较少。现有的许多研究集中于特定任务的孤立方法,这使得研究人员很难全面了解该领域的进展和未来方向。鉴于 RS-TVLMs 的快速进展和良好的发展前景,本综述旨在让研究人员了解基本概念、主要方法、数据集、评估指标及变化描述和变化视觉问答等任务的当前进展。通过回顾现有研究,希望为该领域的研究描绘清晰的路径和未来方向,弥补当前相关综述中的空白,并为遥感时序图像理解的 RS-TVLM 研究奠定基础。
遥感时序视觉 - 语言模型核心方法
目前,遥感时序图像中的视觉 - 语言理解研究主要集中在几个关键领域:变化描述、变化视觉问答、变化检索和变化定位。这些任务旨在通过多模态建模和语言理解增强遥感时序图像的解译。此外,随着大型语言模型(LLMs)的发展,一些近期的研究探索了将 LLMs 集成进来,进一步提升遥感时序图像的视觉 - 语言理解。
遥感变化描述
当前,遥感时序图像的视觉 - 语言理解研究主要集中在遥感变化描述(RS-CC)任务上。该任务旨在生成详细准确的自然语言,描述不同时间拍摄的遥感图像中的地理特征变化。这种描述有助于用户快速理解关键变化,并为时序遥感数据的决策和分析提供直观的语义支持。变化描述要求模型准确识别重要变化,并将其转化为自然、连贯的语言。这个转化过程不仅依赖于精确的视觉变化识别,还要求具有较强的语言生成能力,以确保语言的准确性和流畅性。
以往的变化描述方法通常基于深度学习,并遵循三阶段架构:视觉编码、双时相融合和语言解码。每个阶段对整体模型性能有重要影响,因此近期的研究集中在提高这三个阶段的性能。
视觉编码旨在从双时相图像中提取丰富的语义特征,通常采用 Siamese 编码器以促进双时相图像之间的比较。编码器通常基于卷积神经网络(CNNs)或视觉变换器(ViTs)。CNNs 在捕捉空间细节方面表现优异,而 ViTs 则通过全局注意力机制提取广泛的地理信息。许多方法利用预训练的图像编码器,如 ResNet 或 ViT。例如,Chang 等人使用 ResNet-101 作为编码器,Liu 等人使用 ViT,并比较了在 ImageNet 和 CLIP 上训练的 ViT 的性能。此外,一些研究探索了通过自监督学习训练专门适应变化提取的编码器。例如,Zhou 等人提出了一种在大规模双时相遥感图像数据集上预训练的单流提取器,显著增强了变化特征提取的鲁棒性。
双时相融合是变化描述的核心阶段。该阶段旨在整合双时相特征,捕捉潜在的时序变化模式。在双时相融合过程中,模型应准确识别两张图像之间的显著差异,同时抑制无关的伪变化(例如,由于光照或天气变化导致的变化)。以往的研究通常采用 CNN 或 Transformer 作为基本模块,并提出一些注意力机制来增强模型的变化感知能力。例如,Liu 等人提出了一种基于 Transformer 的方法,称为 RSICCformer,该方法由多个交叉编码模块组成,利用差异特征,允许模型关注每张图像中的变化区域。此外,研究人员还将多尺度策略融入到方法中,以进一步增强模型识别多样变化的能力。
语言解码器将融合后的视觉特征转化为自然语言描述。早期的方法使用支持向量机(SVM)或长短期记忆(LSTM)网络进行语言生成。Chouaf 和 Hoxha 等人比较了 RNN 和支持向量机(SVM)作为语言解码器的性能。鉴于 Transformer 解码器具有强大的生成能力,RSICCformer 首次将 Transformer 引入遥感变化描述任务,采用交叉注意力机制,使模型在生成单词时能专注于特定的图像区域。尽管 Transformer 表现良好,但随着序列长度的增加,模型的计算复杂度呈平方级增长。为了解决这一挑战,近期的研究引入了 Mamba 模型,该模型以线性复杂度运行。Liu 等人提出了空间差异感知 SSM(SDSSM)和时空遍历 SSM(TT-SSM)以改善时空联合建模的能力。此外,他们比较了三种不同的语言解码器,包括 Mamba、生成预训练 Transformer(GPT)风格解码器和 Transformer 解码器。


