【论文阅读】SegEarth-OV:面向遥感图像的免训练开放词汇分割

【论文阅读】SegEarth-OV:面向遥感图像的免训练开放词汇分割

SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images

在这里插入图片描述



SegEarth-OV在遥感图像开放词汇语义分割上的可视化和性能。我们对17个遥感数据集(包括语义分割,建筑物提取,道路提取和洪水检测任务)进行了评估

SegEarth-OV始终生成高质量的分割掩模

像素级解译是遥感图像应用的重要方面,但目前普遍存在的局限性是需要大量的人工标注

本文尝试将开放词汇语义分割(OVSS)引入到遥感图像中

遥感图像对低分辨率特征的敏感性,在预测模板中会出现目标形状失真和边界拟合不佳的情况

我们提出了一种简单通用的上采样器Simplified Up,以无需训练的方式恢复深层特征中丢失的空间信息

CLIP中局部块标记对[CLS]标记的异常响应的观察,我们提出了一种简单的减法运算来减少斑块标记的全局偏差

在17个遥感数据集上进行了广泛的实验,包括语义分割建筑物提取道路检测洪水检测任务

一、介绍

遥感影像改变了人类观察和认识地球的方式,使我们能够监测土地覆盖/利用类型,有效应对自然灾害


在联合国发布的17个可持续发展目标(SDG)1中,遥感图像可以为多个目标提供重要的数据支持,包括“零饥饿”、“清洁水和卫生”、“工业、创新和基础设施”、“气候行动”、“陆地生命”等


与自然图像相比,它涉及更多样化的空间分辨率(从厘米到公里)、时间维度(从小时到几十年)和对象视角(头顶和定向)。

原始遥感图像可从各种来源获得(例如,QuickBird,WorldView,Landsat,Sentinel),但由于昂贵的人工成本,获得大规模标签仍然是一个挑战

OpenStreetMap [19]是一种流行的解决方案,旨在创建一个可自由使用、可编辑和可共享的世界地图


视觉语言模型(VLM)的兴起,以其开放词汇语义分割(OVSS)的能力给我们带来了新的启示

针对自然图像设计的解在遥感图像上是次优的,一个值得注意的现象是在预测掩模中存在失真的目标形状和不拟合的边界,如图2所示。

在这里插入图片描述

根据经验,我们认为这些问题主要是由于特征分辨率过低

CLIP [51]的特征图被下采样到原始图像的1/16(ViT-B/16)提出了一种简单通用的特征上采样器SimFeatUp

该算法的训练目标是在少量的未标记图像上重建内容不变的高分辨率特征,训练后可以对任意的遥感图像特征进行上采样,

CLIP是在图像级训练的

我们发现,一个简单的局部块特征和全局特征的减法运算可以有效地减少全局偏差

贡献:

  • 我们提出了Simplified Up,一个用于无训练OVSS的通用特征上采样器,它可以对低分辨率(LR)特征进行鲁棒上采样,并保持与图像内容的语义一致性
  • 提出了一种非常简单和直接的方法来减轻CLIP的全局偏差问题,即执行本地和全局令牌的减法运算
  • 我们最终提出的模型名为SegEarth-OV,在17个遥感数据集上实现了最先进的性能,包括语义分割,建筑物提取,道路提取和洪水检测任务

## 二、联系工作

Vision-Language Model

最近,基础模型,特别是视觉语言模型,为计算机视觉领域注入了活力

一个显著的进步是对比语言视觉预训练,即CLIP [51],它巧妙地弥合了图像和自然语言之间的差距

通过在多模态嵌入空间中使用大量数据进行训练,CLIP获得了强大的迁移能力,实现零射击学习的飞跃


相关研究逐渐涌现,从数据[10,58,72,75],训练[14,33,75]或模型[31,32]方面

CLIP只关注全局[CLS]令牌,即使可以生成patch token,它们也不可避免地受到全局偏差的污染

出现了几种遥感VLM,它们使一般VLM适应遥感上下文[36,49,66],77]或挖掘遥感数据的特征[21,50]。

Supervised semantic segmentation

语义分割的目的是在像素级上区分图像。解码器作为分割模型的重要组成部分,能够将LR特征图上采样为HR预测

例如,UNet [55],UperNet [71],Semantic FPN [25],MaskFormer [9]等。一些作品[37,40,80]专注于动态,可学习的上采样运算符

然而,本文所提出的Simplified Up算法是基于Simplified Up算法的,它能够在不使用任何标签的情况下显著地改善OVSS


Open-Vocabulary Semantic Segmentation

由于VLM在图像分类中表现出显著的零触发推理,这自然扩展到语义分割

它们使分割管道能够识别可见和不可见的类别

用户可以使用提示词汇分割图像中的几乎任何类别

我们将当前基于CLIP的OVSS方法分为两组:需要训练和无需训练

一些作品[16,42,48,52]试图训练一个本地化感知的CLIP,它可以自然地进行密集预测

其他作品[11,13,30,38,73,选择CLIP的预训练参数的子集和/或将有限数量的可训练参数引入到冻结的CLIP中,即,微调CLIP以适应对基类的密集预测。

无需训练的OVSS方法强调利用CLIP的固有定位能力,对特征或结构进行有限的调整

MaskCLIP [79]率先在CLIP的图像编码器的注意力池层删除查询和关键投影

  • 后续研究[3,28,34,63]充分探索了自我注意力(即qq,k-k或v-v自我注意力),这些修改在一定程度上减轻了CLIP的噪声激活和空间不变感知
  • 另一个流[2,23,56,60]是两阶段方法,该方法首先生成类别不可知的掩码建议,然后对掩码进行分类

关注的是遥感图像的内在特征,而不是自然图像的一般属性

与以往的方法不同,我们关注的是遥感图像的内在特征,而不是自然图像的一般属性。唯一的同期工作是[6],但它需要训练,如[11,74]。

我们的SimplyUp组件,虽然它需要预先在一些仅图像的数据上进行训练,但这个过程独立于语义分割过程

训练的权重可以用于几乎任何遥感数据(就像其他作品中的基础模型[2,29]),因此我们的方法仍然可以被视为一种无训练方法

三、Method

CLIP

在基于ViT的CLIP中,图像编码器由一系列的Transformer块组成

前向过程可以公式化为

在这里插入图片描述

在CLIP训练期间,CLIP的output_cls用于图像级学习

而在OVSS推理期间,O[1:hw + 1]用于块级预测(也就是后续的Patch token用于分割任务)


FeatUp

FeatUp旨在训练一个模型无关的上采样器。它通过一个可学习的上采样器σ↑对来自冻结骨干网络的LR特征O[1:hw + 1]执行上采样操作

JBU将σ↑实例化为堆叠的参数化JBU算子

对于权重生成,JBU考虑了两个因素,即相邻元素与指导特征中的中心元素之间的相似性和距离,对应于内核krange和kspatial


SimFeatUp

OVSS为一般上采样器提供了一个很好的训练范例,但它缺乏对免训练设置的考虑,导致它对于OVSS任务不是最佳的

重新采样的目标是最小化原始LR特征和上下采样后的LR特征

因此在这种弱约束的情况下,上下采样过程变成了黑盒,并且不能保证中间HR特征是完整的并且与原始图像在内容上一致

在这里插入图片描述

有和没有图像重建损失的比较(等式(4))。LR预测直接使用CLIP的输出获得(没有双线性插值)。颜色:建筑物、树木、农田、草地

其中原始图像中的一个小建筑物在LR预测中存在,但在HR预测中消失

引入了一个额外的图像重建损失来约束HR特征:

在这里插入图片描述



CRN是一个非常轻量级的网络,它接收HR特征作为输入并重建原始图像

CRN由两个带有激活的2D卷积层和一个Tanh激活层组成,其中Tanh层被设计为将输出限制为[-1,1]

在这里插入图片描述


然而,在无训练的OVSS中,如第2节所述,自我注意力导致较差的性能

中的SA替换为其他模块,并直接对O[1:hw+ 1]会导致训练和推理之间的不匹配。受此启发,我们建议在更早的层上采样CLIP特征

我们保留投影层。最终,需要上采样的特征O′可以公式化为

在这里插入图片描述



JBU的上采样内核krange和kspatial是根据制导特征中窗口内的元素计算的

在这里插入图片描述



因此,我们设置更大的上采样内核以获得更宽的感受野。在这里,我们将窗口大小扩展到11 × 11,一个可能的问题是,更大的感受野可能会引入更多的无关内容

在Simplified Up中,参数化的JBU模块堆叠4次,进行16倍上采样,每个JBU模块的参数都是独立的

“JBU One”显著减少了上采样器中可训练参数的数量,并提供了上采样任意倍数的可能性

在这里插入图片描述

在CLIP的训练阶段,包含整个图像的全局信息的[CLS]令牌通过对比学习与多模态空间中的文本嵌入一起优化

在OVSS的推理阶段,[CLS]标记通常被丢弃,并且仅使用补丁标记来与提示词汇表进行相似度计算

我们使用CLIP为图(B)中的RGB图像提取[CLS]标记,并计算其与候选文本嵌入的相似度

我们建议从patch token中“减去”一些全局偏差

在这里插入图片描述

四、实验

不仅需要进行多类语义分割,还需要提取特定的土地覆盖类型(如建筑物、道路、水体),例如Google的Open Buildings

语义分割

在8个遥感语义分割数据集上评估了SegEarth-OV,包括

OpenEarthMap [70],LoveDA [64],iSAID [67],波茨坦,Vaihingen 3,UAVid [43],UDD 5 [8]和VDD [5]

其中,前5个数据集主要由卫星图像组成,后3个数据集由无人机图像组成

4个建筑物提取数据集

WHUAerial [22],WHUSat.II [22],Inria [44]和xBD [18]


4个道路提取数据集

CHN 6-CUG [82]、DeepGlobe 4、马萨诸塞州[46]和SpaceNet [62]

1个洪水检测数据集

即WBS-SI 5用于评价单类提取


Simplified Up只需要图像数据进行训练

使用了一个公共的遥感图像分类数据集Million-AID [39],它主要收集来自Google Earth的图像

实现基于MMSegmentation 6工具包。如果没有指定,我们使用CLIP的原始预训练权重(ViT-B/16)。

OpenAI ImageNet模板作为文本编码器的输入,例如“a photo of a {class name}"

输入图像的长边调整为448,并使用224 × 224窗口和112步幅进行滑动推理。

对于Simplified Up训练,我们在原始图像上随机裁剪224 × 224图像块

在这里插入图片描述

Read more

OpenClaw从入门到精通!手把手教你搭建一个全能的AI助理!

OpenClaw从入门到精通!手把手教你搭建一个全能的AI助理!

手把手教你一键部署OpenClaw(Clawdbot),2分钟搞定! AI Agent 上手指南 AI Agent(智能体)入坑指南 * AI Agent 是个啥 * 智能体核心模块拆解 * 智能体是怎么干活的 * 大语言模型入门基础 * 提示词工程技巧 手把手教你一键部署OpenClaw(Clawdbot),2分钟搞定! 智能体工具箱 * 打造你的第一个 AI Agent * OpenClaw (Clawdbot) 攻略 * OpenClaw 一键搞定 * RoxyBrowser (openclaw) 教程 * 用 CrewAI 搭建智能体 * LangChain 开发智能体 * Claude Code 快速上手 * OpenCode 新手入门 * Skills 技能包指南 * OpenCode skills 解析 * Qoder 命令行工具 * Trae

Flutter 三方库 langchain_google 的鸿蒙化适配指南 - 链接 Gemini 智慧中枢、LangChain AI 实战、鸿蒙级智能应用专家

Flutter 三方库 langchain_google 的鸿蒙化适配指南 - 链接 Gemini 智慧中枢、LangChain AI 实战、鸿蒙级智能应用专家

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 langchain_google 的鸿蒙化适配指南 - 链接 Gemini 智慧中枢、LangChain AI 实战、鸿蒙级智能应用专家 在鸿蒙跨平台应用迈向“智能化”的今天,接入生成式 AI(AIGC)已不再是加分项,而是必选项。如果你想在鸿蒙端利用 Google Gemini 的强大推理能力打造智能助手、自动化翻译或垂直领域 RAG 系统。今天我们要深度解析的 langchain_google——一个通过 LangChain 标准协议封装的 Google AI 适配器,正是帮你构建“大模型大脑”的核心插件。 前言 langchain_google 是 LangChain.

【GitHub项目推荐--Toonflow AI短剧工厂:一站式AI短剧创作平台】

简介 Toonflow AI短剧工厂是一个革命性的AI驱动短剧创作平台,由HBAI-Ltd团队开发。该项目致力于将小说文本智能转化为完整的短剧视频,实现从文字到影像的全流程自动化。通过集成先进的大语言模型、图像生成和视频合成技术,Toonflow让用户只需动动手指,就能将小说秒变剧集,创作效率提升10倍以上。 核心价值: * 全流程AI化:从文本到角色,从分镜到视频,0门槛完成短剧创作 * 效率革命:创作效率提升10倍+,大幅缩短制作周期 * 智能转换:自动将小说转化为结构化剧本和视觉内容 * 开源免费:基于AGPL-3.0许可证,完全开源且免费使用 技术定位:Toonflow填补了文学创作与影视制作之间的技术鸿沟。通过标准化的AI工作流,它为内容创作者提供了从创意到成品的完整解决方案,降低了视频制作的专业门槛。 主要功能 1. 智能角色生成 系统自动分析原始小说文本,智能识别并生成角色设定。生成内容包括角色的外貌特征、性格特点、身份背景等详细信息。为后续剧本创作和画面设计提供可靠的角色基础。支持批量角色生成,快速构建完整的角色库。 2. 自动化剧本生成 基

2026 Python+AI 学习方向拆解:3 个高性价比赛道,新手优先学

2026 Python+AI 学习方向拆解:3 个高性价比赛道,新手优先学

欢迎文末添加好友交流,共同进步! “ 俺はモンキー・D・ルフィ。海贼王になる男だ!” * 前言 * 一、AI数据处理与分析赛道 * 1.1 为什么选择这个方向? * 1.2 核心技能树 * 1.3 实战代码示例 * 数据清洗与预处理 * 1.4 学习路线图 * 二、AI应用开发赛道(LLM + RAG) * 2.1 为什么选择这个方向? * 2.2 RAG技术架构流程 * 2.3 实战代码:构建RAG问答系统 * 2.4 学习路线图 * 三、AI自动化办公赛道 * 3.1 为什么选择这个方向? * 3.2 自动化办公应用场景 * 3.3 实战代码示例