融合大模型与遥感技术：人工智能基础模型综述

综述由AI生成遥感领域正经历人工智能技术的深刻变革，基础模型成为关键。综述了 2021 年至 2024 年发布的 51 个视觉基础模型，涵盖架构、数据集及预训练方法。重点分析自监督学习、Transformer 及 CNN 主干网络在场景分类、目标检测等任务中的应用。尽管性能提升显著，仍面临数据质量、计算资源及泛化能力等挑战。文章为研究人员提供技术全景与未来方向建议。

RedisGeek发布于 2025/2/7更新于 2026/6/1336 浏览

人工智能（AI）技术已经深刻地改变了遥感领域，彻底革新了数据收集、处理和分析的方式。传统上依赖于手工解释和特定任务模型的遥感，因基础模型的出现得到了显著增强。基础模型是指大规模、预训练的 AI 模型，能够以前所未有的精度和效率执行各种任务。本文对遥感领域的基础模型进行了全面的综述，涵盖了 2021 年 6 月至 2024 年 6 月期间发布的模型。我们根据这些模型在计算机视觉和特定领域任务中的应用对其进行分类，并提供了关于其架构、预训练数据集和方法论的深入见解。通过详细的性能比较，我们突出了这些基础模型所取得的显著进展和新兴趋势。此外，我们还讨论了技术挑战、实际影响和未来研究方向，特别是针对高质量数据的需求、计算资源以及模型泛化能力的提升。我们的研究还发现，预训练方法，尤其是对比学习和掩码自编码器等自监督学习技术，显著提升了基础模型在遥感任务中的性能和稳健性，例如场景分类、目标检测等应用。

关键词：遥感、机器学习、人工智能、图像处理、计算机视觉、Transformers。

人工智能（AI）技术已经深刻地变革了遥感领域，彻底革新了数据的收集、处理和分析方式。传统上，遥感项目严重依赖于手动解释和任务特定模型，这些模型需要大量的标记数据集和显著的计算资源。然而，随着 AI 和深度学习（DL）的出现，一个新的时代已经到来。在这个时代中，大规模的预训练模型，即基础模型，能够以前所未有的精度和效率执行各种任务。这些进步不仅增强了遥感的能力，还为其在各个领域的应用开辟了新的途径。近年来，出现了许多基础模型，它们在处理多样的遥感任务方面表现出了卓越的性能。这些模型有可能显著提升多个下游任务的性能，如场景分类、语义分割、目标检测等。通过利用海量的预训练数据和复杂的架构，这些基础模型在该领域设立了新的基准，使其成为研究人员和工程师不可或缺的工具。

本文旨在提供遥感领域基础模型的全面综述，涵盖了 2021 年 6 月至 2024 年 6 月期间发布的基础模型。为了方便研究人员的导航和使用，我们根据这些模型在计算机视觉任务和特定领域任务中的应用对其进行了分类。这样的分类方式可以更清晰地了解哪些模型适用于特定目的，无论是一般的基于图像的挑战，还是更为专业的应用，如环境监测、土地覆盖和土地利用、考古勘探、灾害管理或其他领域。我们的贡献包括：

对遥感领域提出的基础模型进行了详尽的回顾，从基础模型的背景和方法论到不同领域和任务中的具体应用，进行了分层和结构化的综述。
对这些模型在计算机视觉任务和特定领域任务中的应用进行了分类和分析。我们讨论了每个模型的架构、预训练数据集、预训练方法及其性能。
针对遥感中基础模型相关的挑战和未解决的问题进行了讨论。我们指出了新趋势，提出了重要问题，并为进一步探索提供了未来的研究方向。

基础模型（FMs）指的是大规模的预训练模型，这些模型为不同领域的各种下游任务提供了坚实的起点。基础模型利用广泛的数据集和先进的架构，能够捕捉复杂的模式和特征，并通过较少的额外训练进行微调以适应特定的应用。在遥感领域，由于数据的多样性和复杂性，包括多光谱和多时相影像，基础模型显得尤为重要。诸如自监督学习（SSL）和 Transformers 等技术显著提高了图像分类、目标检测和变化检测等任务的性能和效率，解决了遥感数据所带来的独特挑战。

基础模型的发展得益于深度学习的进步和大型数据集的可用性。最初，卷积神经网络（CNNs）如 ResNet 为图像识别和分类任务的改进铺平了道路。Transformers 的引入，利用自注意力机制来建模远程依赖关系，进一步提升了基础模型在处理大规模图像数据方面的能力。

遥感中的基础模型的特点在于它们能够通过 SSL 技术利用大量未标记数据，从而在无需大量标记数据集的情况下学习到稳健的表示。主要的 SSL 方法包括对比学习，它通过比较同一数据点的不同增强视图来学习表示；以及预测编码，它通过观察部分数据来预测输入数据的缺失部分。

遥感领域的知名基础模型包括 SatMAE，它为时间和多光谱卫星影像预训练 Transformers；Scale-MAE，一种用于多尺度地理空间表示学习的尺度感知掩码自动编码器；以及 DINO-MC，它通过全球 - 局部视图对齐扩展了 SSL 在遥感影像中的应用。这些模型在场景分类、目标检测和变化检测等各种遥感任务中表现出色。

尽管取得了成功，基础模型仍面临诸多挑战，包括对高质量和多样化训练数据的需求、显著的计算资源消耗，以及将模型有效适配于特定遥感任务的领域适应性。这些挑战的解决对于基础模型在遥感中的持续进步至关重要。

方法论

近年来，遥感基础模型（FMs）的发展依赖于各种复杂的方法学，包括自监督学习（SSL）、Transformers 及视觉 Transformers（ViT），以及残差神经网络（ResNet）。这些方法显著增强了基础模型的能力，使其能够在没有大量人工监督的情况下从大量数据中学习，处理复杂的数据结构，并改善特征提取和表示能力。

A. 自监督学习（SSL）训练策略在遥感基础模型中的应用

自监督学习（SSL）在基础模型的预训练阶段起着至关重要的作用。通过 SSL，模型能够从输入数据的部分信息中预测另一部分，从而减少对大量标注数据集的依赖。在遥感中，由于标注数据的稀缺性，SSL 显得尤为重要。使用 SSL 预训练的模型能够有效地从大量未标注的遥感数据中捕捉模式和特征，使其在下游任务中非常高效。

在遥感应用中，常用的两种 SSL 方法是对比学习和预测编码。

对比学习：对比学习旨在通过比较同一数据点的不同增强视图来学习表示。其核心思想是在特征空间中将相似（正样本）对拉近，而将不相似（负样本）对推远。这种方法高度依赖于数据增强，以创建同一图像的多个视图。
预测编码：预测编码是另一种 SSL 技术，模型通过观察部分数据来预测输入数据的缺失部分。这种方法有助于捕捉数据中的空间和时间依赖性。常见的预测编码方法包括自动编码器（AE）和掩码自动编码器（MAE）。