遥感时序视觉语言模型：技术原理与应用综述

引言

遥感技术通过卫星、无人机等多种平台获取地球表面的图像信息，在环境监测、城市规划、灾害预警和评估等关键领域中发挥着重要作用。早期的遥感图像解译主要集中于单时相图像的分析，包括土地覆盖分类、物体检测和语义分割等任务。然而，单时相图像仅反映特定时刻的表面状况，无法捕捉跨时间的动态变化。

随着遥感技术和设备的快速进展，获取多时相遥感图像的能力得到了显著提高。多时相遥感图像提供了不同时间点下某些位置的表面特征信息，为地表变化的动态监测开辟了新途径。这一时序维度至关重要，因为它使研究人员能够分析随时间变化的趋势，从而对环境动态有更全面的了解。早期的时序图像理解主要集中于变化检测技术，通过比较不同时间段的图像来定位变化区域，如植被覆盖变化或新建筑物的出现。然而，变化检测通常仅在视觉层面上检测变化位置，缺乏对变化的更高层次语义理解，如变化对象的类型、变化过程中的状态，以及对象之间的关系。

近年来，像 Llava 和 GPT-4 等视觉 - 语言模型（VLMs）取得了突破性进展，推动了多模态研究领域对视觉 - 语言模型的关注。VLMs 结合了计算机视觉和自然语言处理技术，能够全面理解视觉和文本信息。与专注于单一图像模态的视觉模型不同，VLMs 不仅识别图像中的目标对象，还理解它们之间的关系，生成描述性语言或回答问题。这一能力在遥感领域具有巨大的应用潜力。在遥感领域，已有研究探讨了各种视觉 - 语言模型，如图像描述、视觉问答（VQA）、视觉问题生成、图像检索和视觉定位等。一些近期的研究探索了基于大型语言模型（LLMs）的遥感视觉语言模型，如 RSGPT、GeoChat、H2RSVLM、LHRS-Bot 和 EarthGPT。然而，这些 VLMs 主要关注单时相遥感图像，无法实现多时相遥感图像的理解。

随着 VLM 的不断发展，针对多时相遥感图像的研究进入了一个新的发展阶段。研究人员越来越多地探索专为时序图像理解设计的遥感时序视觉 - 语言模型（RS-TVLMs），涉及变化描述和变化视觉问答等任务。RS-TVLMs 的研究丰富了时序图像解译的工具。语言作为人类沟通和知识的载体，在融入时序图像分析时能够增强模型的高层次理解。通过将时序视觉信息与语言结合，RS-TVLMs 不仅可以识别目标和变化，生成描述性文字，回答相关问题，还能进行多模态交互，从而将时序图像的解译扩展到超越单纯的视觉判断。

目前，相关研究数量正在迅速增加。尽管 RS-TVLMs 的研究兴趣日益增长，但系统性的综述仍然较少。现有的许多研究集中于特定任务的孤立方法，这使得研究人员很难全面了解该领域的进展和未来方向。鉴于 RS-TVLMs 的快速进展和良好的发展前景，本综述旨在让研究人员了解基本概念、主要方法、数据集、评估指标及变化描述和变化视觉问答等任务的当前进展。通过回顾现有研究，希望为该领域的研究描绘清晰的路径和未来方向，弥补当前相关综述中的空白，并为遥感时序图像理解的 RS-TVLM 研究奠定基础。

遥感时序视觉 - 语言模型核心方法

目前，遥感时序图像中的视觉 - 语言理解研究主要集中在几个关键领域：变化描述、变化视觉问答、变化检索和变化定位。这些任务旨在通过多模态建模和语言理解增强遥感时序图像的解译。此外，随着大型语言模型（LLMs）的发展，一些近期的研究探索了将 LLMs 集成进来，进一步提升遥感时序图像的视觉 - 语言理解。

遥感变化描述

当前，遥感时序图像的视觉 - 语言理解研究主要集中在遥感变化描述（RS-CC）任务上。该任务旨在生成详细准确的自然语言，描述不同时间拍摄的遥感图像中的地理特征变化。这种描述有助于用户快速理解关键变化，并为时序遥感数据的决策和分析提供直观的语义支持。变化描述要求模型准确识别重要变化，并将其转化为自然、连贯的语言。这个转化过程不仅依赖于精确的视觉变化识别，还要求具有较强的语言生成能力，以确保语言的准确性和流畅性。

以往的变化描述方法通常基于深度学习，并遵循三阶段架构：视觉编码、双时相融合和语言解码。每个阶段对整体模型性能有重要影响，因此近期的研究集中在提高这三个阶段的性能。

视觉编码旨在从双时相图像中提取丰富的语义特征，通常采用 Siamese 编码器以促进双时相图像之间的比较。编码器通常基于卷积神经网络（CNNs）或视觉变换器（ViTs）。CNNs 在捕捉空间细节方面表现优异，而 ViTs 则通过全局注意力机制提取广泛的地理信息。许多方法利用预训练的图像编码器，如 ResNet 或 ViT。例如，Chang 等人使用 ResNet-101 作为编码器，Liu 等人使用 ViT，并比较了在 ImageNet 和 CLIP 上训练的 ViT 的性能。此外，一些研究探索了通过自监督学习训练专门适应变化提取的编码器。例如，Zhou 等人提出了一种在大规模双时相遥感图像数据集上预训练的单流提取器，显著增强了变化特征提取的鲁棒性。

双时相融合是变化描述的核心阶段。该阶段旨在整合双时相特征，捕捉潜在的时序变化模式。在双时相融合过程中，模型应准确识别两张图像之间的显著差异，同时抑制无关的伪变化（例如，由于光照或天气变化导致的变化）。以往的研究通常采用 CNN 或 Transformer 作为基本模块，并提出一些注意力机制来增强模型的变化感知能力。例如，Liu 等人提出了一种基于 Transformer 的方法，称为 RSICCformer，该方法由多个交叉编码模块组成，利用差异特征，允许模型关注每张图像中的变化区域。此外，研究人员还将多尺度策略融入到方法中，以进一步增强模型识别多样变化的能力。

语言解码器将融合后的视觉特征转化为自然语言描述。早期的方法使用支持向量机（SVM）或长短期记忆（LSTM）网络进行语言生成。Chouaf 和 Hoxha 等人比较了 RNN 和支持向量机（SVM）作为语言解码器的性能。鉴于 Transformer 解码器具有强大的生成能力，RSICCformer 首次将 Transformer 引入遥感变化描述任务，采用交叉注意力机制，使模型在生成单词时能专注于特定的图像区域。尽管 Transformer 表现良好，但随着序列长度的增加，模型的计算复杂度呈平方级增长。为了解决这一挑战，近期的研究引入了 Mamba 模型，该模型以线性复杂度运行。Liu 等人提出了空间差异感知 SSM（SDSSM）和时空遍历 SSM（TT-SSM）以改善时空联合建模的能力。此外，他们比较了三种不同的语言解码器，包括 Mamba、生成预训练 Transformer（GPT）风格解码器和 Transformer 解码器。

上述的编码 - 融合 - 解码框架以耦合方式处理变化和不变的图像对。与此不同，Liu 等人提出了一种解耦范式，将变化描述解耦为两个问题：'是否发生变化'和'发生了什么变化'。他们将解耦结果输入到预训练的大型语言模型（LLM）中，通过多提示学习策略进行语言生成。解耦范式使研究人员能够独立集中于改善变化图像对和不变图像对的描述。

变化检测与描述的多任务学习

在遥感时序图像分析中，变化检测和变化描述任务侧重于不同层次的变化信息提取。变化检测主要关注生成像素级的变化掩膜，通过双时相图像识别和突出变化区域。相比之下，变化描述则旨在对这些变化进行语义层次的理解，包括对象属性和上下文关系。鉴于这两个任务之间的内在联系，近期的研究将变化检测和变化描述整合为统一的多任务学习框架，以提高变化解译的整体效率和准确性。

Change-Agent 是该领域的代表性工作之一，建立了一个多任务学习框架，为后续的研究奠定了基础。如图 5 所示，该框架基于共享的视觉编码器，分别为变化检测和变化描述任务采用两个任务特定的分支。在视觉编码阶段，模型从双时相图像中提取时序特征，这些融合的特征为每个任务的后续分支提供支持。值得注意的是，与传统的变化检测模型类似，变化检测分支通常利用视觉编码器提取的多尺度双时相特征，以确保变化掩膜的精确性和细节。与此同时，变化描述分支通常仅利用最深层的视觉特征，关注变化的语义，设计上与单任务变化描述模型相似。

在多任务框架中平衡两项任务的训练是一项关键挑战。当前的研究通常应用加权损失，通过不同的权重将变化检测和变化描述的损失结合起来。例如，文献采用了通过调整辅助任务梯度大小的元平衡策略，而其他研究则采用了动态权重平均策略。

此外，一些近期研究探索了变化检测如何专门帮助变化描述提高描述的准确性。核心思想是，像素级的变化检测能够增强变化描述模型识别变化的能力，特别是在低光照条件下或针对小结构的变化。例如，MV-CC 使用低分辨率的变化检测掩膜作为显式指导，帮助模型准确关注变化区域。

遥感变化视觉问答

遥感变化视觉问答（RS-CVQA）任务旨在根据时间变化的遥感图像和用户特定问题生成自然语言回答。与变化检测和图像标注任务不同，RS-CVQA 强调用户与时间变化图像之间的互动语言交流，提供了一种更加灵活和高效的方式来获取图像中变化的信息。

一个典型的 RS-CVQA 模型框架包括以下关键阶段：视觉编码、问题编码、多模态交互和答案生成。

视觉编码：模型通常采用双重编码器分别从双时相遥感图像中提取特征，并融合这些时间特征以捕捉图像中的变化信息。
问题编码：通常使用预训练的语言模型（如 BERT 或 GPT）将用户的复杂问题转化为适合模型理解的语义嵌入。
多模态交互：广泛应用注意力机制（如自注意力和交叉注意力）来对齐和融合视觉变化与语言特征，使得模型能够根据问题中的语义提示，关注图像中的关键变化区域。这种多模态交互增强了模型对图像变化的理解，并确保生成的答案与视觉内容紧密相关。
答案生成：将融合的多模态特征转化为自然语言回答。根据答案生成方法，RS-CVQA 方法大致分为两类：基于候选答案的 RS-CVQA 和逐字生成的 RS-CVQA。

在基于候选答案的 RS-CVQA 中，答案生成模块被设计为多类别分类器，从预定义的候选答案集中选择最佳答案。Yuan 等人首次提出了这个任务，将答案分为几个固定类别，并允许分类器从中直接选择答案。这种方法计算效率高且稳定，适用于目标明确且变化类型固定的任务。然而，由于其依赖于有限的预定义答案池，这种方法的灵活性较差，可能不适用于处理更复杂、开放性的问题。

相比之下，逐字生成的 RS-CVQA 采用生成语言模型（如 Transformer 解码器）逐字生成答案。这种方法更适合开放性问题，能够生成灵活且细腻的回答。随着大规模语言模型（LLM）的兴起，基于生成模型的 RS-CVQA 逐渐成为主流，许多最新的方法开始整合 LLM，以提供更丰富的答案生成能力。例如，ChangeChat 和 CDChat 使用与先前的 Llava 和 Minigpt-4 类似的架构，使用双时相视觉嵌入和用户文本嵌入作为 LLM Vicuna-v1.5 的前缀。

遥感文本到变化检索

随着遥感图像数据的快速增长，如何高效地检索符合特定用户需求的图像，已成为环境监测、灾害评估和城市规划等领域的关键问题。传统的基于文本的图像检索技术将用户提供的查询文本与单时相图像进行匹配。然而，这种技术忽略了遥感图像中的时间变化，难以满足用户对动态场景的检索需求。

遥感文本到变化检索（RSI-TCR）应运而生，以解决这一限制。其核心目标是高效检索符合用户输入查询描述的图像变化的双时相图像对。RSI-TCR 显著减少了筛选大规模数据集所需的人工工作量，提高了庞大遥感数据集的可用性。这项技术在实际场景中展现了巨大的价值。例如，在灾害管理中，RSI-TCR 可以根据查询文本（如'洪水淹没'）迅速定位受影响区域的时相图像，为灾后应急响应提供必要的数据。

与传统的基于文本的图像检索任务（通常涉及'文本'和'图像'之间的二元匹配）相比，RSI-TCR 更加复杂，因为它需要进行三模态匹配——'事件前图像'、'事件后图像'和'文本'。这种复杂性要求模型在多模态语义空间内处理时空变化和文本信息之间的复杂关系。Ferrod 等人首次使用 LEVIR-CC 数据集研究了 RSI-TCR 任务，并提出了该任务的框架。在他们的方法中，Chg2Cap 模型的编码器被用来从双时相图像中提取语义变化嵌入。用户提供的查询文本通过 Transformer 解码器编码为文本嵌入。然后，他们通过对比学习损失函数（特别是 InfoNCE）将图像变化嵌入与查询文本嵌入对齐。

RSI-TCR 中的核心挑战之一是伪负样本的问题。具体来说，在训练批次中标记为负样本的图像对，实际上可能是与查询文本匹配的正样本，这可能干扰模型训练。这个问题在许多使用对比学习的任务中都很常见，并且已有解决方案来应对这个问题。为了解决这个问题，Ferrod 等人采用了两种常见的策略来提高复杂变化场景中的检索精度：

伪负样本排除（FNE）：排除可能的伪负样本以防干扰。
伪负样本吸引：将可能的伪负样本重新标记为正样本，以更好地对齐数据中的真实关系。

遥感变化定位

遥感变化定位（RS-CG）旨在在双时相遥感图像中识别和定位由用户提供的查询文本所指示的变化区域。通过将自然语言作为查询模态，RS-CG 显著增强了用户交互的灵活性，相比传统的变化检测方法（仅限于固定类别的输出）。RS-CG 的输出通常以两种形式呈现：边界框和像素级掩模。

边界框通过矩形轮廓标注变化区域，提供目标变化的直观空间位置。而像素级掩模则提供变化区域形状和边界的精确划分，非常适合细粒度分析。

Irvin 等人采用了受 LLaVA-1.5 启发的模型架构。他们使用时间共享的 ViT-L/14 对时间变化图像进行编码，通过 MLP 将嵌入映射后再送入 LLaMA-2。LLM 输出边界框的坐标，以文本格式有效地将检测到的变化定位到输入查询中。Li 等人提出了一种名为 VisTA 的新型多任务模型，设计用于变化检测问答和定位。VisTA 不仅能够回答用户问题，还能同时生成与文本答案相关的像素级变化掩模。文本答案通过双层 MLP 生成，而掩模解码器由两个注意力模块组成。这种双重输出方法使 VisTA 能够提供语义和视觉的双重解释，成为 RS-CG 任务的多功能解决方案。

挑战与未来展望

尽管遥感时序视觉语言模型（RS-TVLMs）取得了显著进展，但仍面临诸多挑战。

首先，大规模数据集的收集是一个主要瓶颈。高质量的时序遥感图像通常需要人工标注，成本高昂且耗时。现有的公开数据集规模有限，难以支撑超大规模模型的训练。未来的研究方向应包括开发更高效的数据标注工具，利用弱监督或自监督学习减少对标注数据的依赖，以及构建更大规模的基准测试集。

其次，基础模型的设计需要进一步优化。当前的模型大多基于通用的视觉 - 语言架构，针对遥感数据的特性（如高分辨率、多光谱、视角变化）进行了微调。如何设计专门针对遥感时序特性的骨干网络，以更好地捕捉长时序依赖和细微变化，是提升模型性能的关键。此外，模型的可解释性也是一个重要议题，特别是在灾害评估等高风险应用场景中，用户需要理解模型做出判断的依据。

第三，多时相图像序列的处理。目前的模型多关注双时相图像，但在实际应用中，往往需要处理长时间序列的观测数据。如何将时序建模能力扩展到 N 时相，同时保持计算效率，是未来的一个重要方向。这涉及到如何在内存受限的情况下处理长序列，以及如何有效聚合多时相信息而不丢失关键变化信号。

最后，跨域适应能力。遥感数据受传感器类型、成像条件、地理位置等因素影响较大，模型在不同场景下的泛化能力有待提高。未来的研究应关注域自适应技术，使模型能够在未见过的数据分布上保持良好的性能。

结论

通过将计算机视觉与自然语言处理相结合，遥感时间变化视觉语言模型（RS-TVLMs）大大增强了分析时间变化遥感数据的能力，在灾害监测、环境分析和城市规划等领域具有广泛应用。本文综述了 RS-TVLMs 的进展，包括基本概念、主要方法、数据集和评估指标。通过回顾现有研究，我们旨在为该领域的研究提供清晰的发展路径和未来方向。此外，仍然存在一些挑战，如大规模数据集的收集、基础模型的设计以及多时相图像序列的处理等。随着技术的不断进步，RS-TVLMs 有望成为遥感智能解译的核心工具，推动遥感应用向更高水平的智能化发展。