算法

Florence-2：推进多种视觉任务的统一表征 [论文解读]

Ne0inhk

25 Dec 2024 — 98 min read

Florence-2：推进多种视觉任务的统一表征肖斌† 吴海平* 徐伟建* 胡西阳戴厚东
陆玉茂 Michael Zeng Ce Liu ‡ 陆远‡
†项目领导 ∗同等贡献 ‡定向领导
Azure AI，微软

抽象的

我们推出了Florence-2，这是一种新颖的视觉基础模型，具有统一的、基于提示的表示，可用于各种计算机视觉和视觉语言任务。虽然现有的大型视觉模型在迁移学习方面表现出色，但它们难以用简单的指令执行各种任务，这种能力意味着处理各种空间层次和语义粒度的复杂性。Florence -2旨在将文本提示作为任务指令，并以文本形式生成理想的结果，无论是字幕、对象检测、基础还是分割。这种多任务学习设置需要大规模、高质量的注释数据。为此，我们共同开发了FLD-5B，它包含 1.26 亿张图像上的 54 亿条综合视觉注释，使用自动图像注释和模型细化的迭代策略。我们采用序列到序列结构来训练Florence-2执行多功能和全面的视觉任务。对众多任务的广泛评估表明，Florence-2是一个强大的视觉基础模型竞争者，具有前所未有的零样本和微调能力。

1介绍

www.zeeklog.com - Florence-2：推进多种视觉任务的统一表征 [论文解读]

图1：我们的目标是构建一个视觉基础模型，以实现包括空间层次和语义粒度在内的广泛感知能力。为了实现这一目标，我们在FLD-5B数据集上预先训练了一个统一的模型Florence-2，该数据集包含 1.26 亿张图像中的 54 亿条综合注释，这些注释由我们的 Florence 数据引擎收集。

在通用人工智能 (AGI) 系统领域，人们已经明显转向使用预先训练的多功能表示，这种表示被认为在各种应用中具有与任务无关的优势。这种趋势在自然语言处理 (NLP) 中很明显，其中高级模型 [，，，，，]凭借跨领域和任务的全面知识以及简单的指令展现出适应性。NLP 的成功推动了计算机视觉领域的并行方法。

为各种视觉相关任务寻找通用表征带来了独特的挑战，尤其是需要全面的感知能力。与主要处理文本的 NLP 不同，计算机视觉需要处理复杂的视觉数据，如对象位置、蒙版轮廓和属性。要在计算机视觉中实现通用表征，需要熟练管理一系列复杂任务，这些任务以二维形式组织，如图：

空间层次：模型必须辨别不同尺度的空间细节，理解图像级概念和细粒度像素细节。适应视觉中复杂的空间层次需要模型能够熟练处理不同粒度级别。

语义粒度：计算机视觉中的通用表示应涵盖一系列语义粒度。该模型从高级标题过渡到细微描述，从而为各种应用提供多种理解。

这一追求具有独特性和重大挑战性。一个关键障碍是缺乏全面的视觉注释，阻碍了能够捕捉空间层次和语义粒度的复杂细微差别的基础模型的开发。现有的数据集，如 ImageNet []，可可 []和 Flickr30k 实体 []是专门为特定应用而定制的，需要人工进行大量标注。为了克服这一限制，必须在更大范围内为每幅图像生成大量标注。

另一个挑战是缺乏一个统一的预训练框架，该框架具有单一的网络架构，可以无缝集成计算机视觉中的空间层次和语义粒度。传统模型在诸如对象检测等任务中表现出色 [，]、语义分割 [，]和图片说明 [，]具有针对特定任务的设计。然而，开发一个全面、统一的模型至关重要，该模型能够以与任务无关的方式适应各种视觉任务，甚至在极少或没有针对特定任务的微调的情况下适应新任务。

模特佛罗伦萨 []通过统一的预训练和网络架构，率先将空间、时间和多模态方面融入计算机视觉中。第一个进化版本 []擅长通过噪声文本-图像对进行预训练以及使用专用适配器进行特定任务的微调来进行迁移学习。然而，它依赖于大型特定任务数据集和适配器，在解决上述双重关键挑战方面存在差距。
模特佛罗伦萨[]通过统一的预训练和网络架构，率先将空间、时间和多模态方面融入计算机视觉中。第一个进化版本 [] 擅长迁移学习，通过使用嘈杂的文本图像对进行预训练，并使用专用适配器进行特定于任务的微调。但是，它依赖于大型任务特定的数据集和适配器，在解决上述双重关键挑战方面存在差距。

在本文中，我们介绍了Florence-2，这是一个通过多任务学习和大量视觉注释实现的通用骨干模型。这为各种视觉任务提供了统一的、基于提示的表示，有效地解决了综合数据有限和缺乏统一架构的挑战。

多任务学习需要大规模、高质量的注释数据。我们的数据引擎不依赖劳动密集型的手动注释，而是自主生成一个名为FLD-5B的综合视觉数据集，共包含 1.26 亿张图像的 5.4B 条注释。该引擎由两个高效的处理模块组成。第一个模块使用专门的模型协作和自主地注释图像，摆脱了传统的单一和手动注释方法。多个模型共同努力达成共识，让人想起群体智慧的概念 [，，]，确保更可靠、更公正的图像理解。第二个模块使用训练有素的基础模型迭代地细化和过滤这些自动注释。

通过利用这个广泛的数据集，我们的模型采用了序列到序列（seq2seq）架构 [，，，]，它集成了一个图像编码器和一个多模态编码器-解码器。这种设计可以适应一系列视觉任务，而无需针对特定任务进行架构修改，这符合 NLP 社区对具有一致底层结构的多功能模型开发的精神。数据集FLD-5B中的所有注释都被统一标准化为文本输出，从而促进了统一的多任务学习方法，并使用与目标相同的损失函数进行一致的优化。结果是一个多功能的视觉基础模型Florence-2，它能够在由统一参数集控制的单个模型中执行各种任务，例如对象检测、字幕和基础。任务激活是通过文本提示实现的，反映了大型语言模型 (LLM) 使用的方法 []。

我们的方法实现了通用表示，在各种视觉任务中具有广泛的适用性。主要结果包括：

作为一个多功能视觉基础模型，Florence-2在 COCO 上的字幕制作等任务中实现了新的最先进的零样本性能 []，Flick30k 上的视觉基础 []，并引用 RefCOCO/+/g 上的表达式理解 [，，]。

在使用公开的人工注释数据进行微调后，尽管Florence-2体积小巧，但仍能与更大的专业模型相媲美。值得注意的是，经过微调的Florence-2在 RefCOCO/+/g 的基准测试中取得了新的最先进结果。

预先训练的Florence-2主干增强了下游任务的性能，例如。COCO 对象检测和实例分割以及 ADE20K 语义分割，超越了监督和自监督模型。与 ImageNet 上的预训练模型相比，我们的模型将训练效率提高了 4×并在 COCO 上取得了 6.9、5.5、5.9 分的大幅提升 []和 ADE20K []数据集，使用 Mask-RCNN []，迪诺 []和 UperNet []框架。

2重新思考视觉模型预训练

图2：Florence-2由图像编码器和标准多模态编码器-解码器组成。我们采用统一的多任务学习范式，在FLD-5B数据上训练Florence-2，从而生成通用视觉基础模型，该模型可执行各种视觉任务。

为了追求多功能的视觉基础模型，我们重新审视了三种主要的预训练范式：监督（例如。、ImageNet 分类[]）、自监督（例如。, 模拟CLR []，莫科[] , BEiT [] , 平均等效误差 [] ) 和弱监督 (例如.，夹子 []，佛罗伦萨 []，山姆 []）。每个范式都捕捉视觉数据的独特方面，但本质上受到单任务学习框架的限制。监督预训练在物体识别方面表现出色，但缺乏适应性 []；自监督算法揭示了复杂的特征，但可能会过分强调某些属性 []；弱监督方法利用非结构化文本注释，但只能产生图像级别的理解 [为了构建适用于各类应用的统一视觉基础模型，必须探索创新的预训练策略，突破单任务限制，融合文本语义和视觉语义。

图像理解需要捕捉多个粒度级别，从全局语义到局部细节，并理解语义上下文中对象和实体之间的空间关系。为了解决图像理解的这些核心方面，我们的方法结合了多种注释，有效地捕捉视觉理解的细微差别并弥合视觉和语言理解之间的差距。

2.1综合多任务学习

为了开发一个多功能的视觉基础模型，我们制定了一系列多任务学习目标，每个目标都针对视觉理解的特定方面量身定制。这些目标符合我们预定义的标准：空间层次和语义粒度，灵感来自最近对多任务学习的研究 [，，，，，]。我们的多任务学习方法包含三个不同的学习目标，每个目标针对不同级别的粒度和语义理解：

图像级理解任务捕捉高级语义，并通过语言描述促进对图像的全面理解。，，，]。它们使模型能够理解图像的整体背景并掌握语言领域的语义关系和上下文细微差别。示例任务包括图像分类、字幕和视觉问答。

区域/像素级识别任务有助于在图像中详细定位对象和实体，捕捉对象与其空间背景之间的关系。任务包括对象检测、分割和指称表达理解。

细粒度视觉语义对齐任务需要对文本和图像进行细粒度理解。它涉及定位与文本短语（例如对象、属性或关系）相对应的图像区域。这些任务挑战了捕捉视觉实体的局部细节及其语义上下文以及文本和视觉元素之间交互的能力。

通过将这三个学习目标结合到一个多任务学习框架中，我们的基础模型可以学习处理不同层次的细节和语义理解。这种战略性结合使我们的模型能够处理各种空间细节，区分理解中的细节层次，并超越表面层次的识别——最终学习视觉理解的通用表示。

3模型

我们提出了基础模型Florence-2，该模型专为通用表征学习而设计，能够使用一组权重和统一架构处理各种视觉任务。如图，Florence-2采用序列到序列的学习范式 []，将所有任务（如第所述）整合到一个共同的语言建模目标下。该模型将图像与任务提示相结合作为任务指令，并以文本形式生成所需的结果。它使用视觉编码器将图像转换为视觉标记嵌入，然后将其与文本嵌入连接起来，并由基于转换器的多模态编码器解码器处理以生成响应。在以下部分中，我们将详细解释每个模型组件。

任务制定。

我们采用序列到序列框架 [，，，]以统一的方式解决各种视觉任务。如所示，我们将每个任务表述为一个翻译问题：给定一个输入图像和一个特定于任务的提示，我们生成相应的输出响应。根据任务的不同，提示和响应可以是文本或区域：

文本：当提示或答案是没有特殊格式的纯文本时，我们会将其保留在最终的序列到序列格式中。

区域：对于特定区域的任务，我们将位置标记添加到标记器的词汇表中，表示量化坐标。我们创建1，000类似于 [，，，]，并使用根据任务要求定制的格式表示区域：

盒子表示（十0，是0，十1，是1）：用于物体检测和密集区域字幕等任务，位置标记与框坐标相对应。位置标记是框左上角和右下角的坐标。

四边形框表示（十0，是0，…，十3，是3）：对于文本检测和识别任务，使用位置标记来表示包围文本的四边形的每个坐标。位置标记是四边形框每个角的坐标，从左上角开始顺时针旋转。

多边形表示（十0，是0，…，十n，是n）：用于引用分割任务，位置标记表示多边形的顶点。位置标记是多边形顶点的坐标，按顺时针顺序排列。

通过扩展标记器词汇表以包含位置标记，我们使模型能够以统一的学习格式处理特定区域的信息。这样就无需为不同任务设计特定任务的头部，并允许采用更以数据为中心的方法。

视觉编码器。

我们聘请了 DaViT []作为视觉编码器。它处理输入图像𝐈∈ℝ赫×西×3（和赫和西分别表示高度和宽度）转化为扁平的视觉标记嵌入𝐕∈ℝ否五×德五，在哪里否五和德五分别表示视觉标记的数量和维数。

多模态编码器解码器。

我们使用标准的编码器-解码器转换器架构来处理视觉和语言标记嵌入。我们首先获取提示文本嵌入𝐓页ro米页吨∈𝐑否吨×德使用我们扩展的语言标记器和词嵌入层 []。然后，我们将视觉标记嵌入与提示嵌入连接起来，形成多模态编码器模块输入，𝐗=[𝐕′，𝐓页ro米页吨]，在哪里𝐕′∈ℝ否五×德通过应用线性投影和 LayerNorm 层获得 []到𝐕用于维度对齐。

优化目标。

给定输入十结合图像和提示，以及目标是，我们对所有任务使用带有交叉熵损失的标准语言建模。

ℒ=−∑我=1|是|升o克磷θ（是我|是<我，十），

（1）

在哪里θ是网络参数，|是|是目标令牌的数量。

图3：Florence-2数据引擎由三个基本阶段组成：(1) 采用专业模型的初始注释，(2) 数据过滤以纠正错误并删除不相关的注释，以及 (3) 数据细化的迭代过程。我们的最终数据集 ( FLD-5B ) 包含超过50 亿条注释，包括1.26 亿张图像、 5 亿条文本注释、 13 亿条区域文本注释和36 亿条文本短语区域注释。

4数据引擎

为了训练Florence-2模型，我们需要一个全面、大规模、高质量的多任务数据集，涵盖各种图像数据方面。鉴于此类数据的稀缺性，我们开发了一个新的多任务图像数据集。此数据集FLD-5B包括126M张图像、500M条文本注释、13B文本区域注释和36B文本短语区域注释，涵盖不同的任务。我们详细解释了我们的数据收集和注释程序，包括针对各种注释类型的调整。数据引擎管道（所示）将在后续章节中讨论。

4.1图片集

我们通过从各种来源收集各种图像来构建数据。我们首先确定作为图像语料库主要来源的三个关键任务：图像分类、对象检测和图像字幕。因此，我们整理并组合了来自上述任务的五个不同数据集：ImageNet-22k []，对象365 []，打开图片[]、概念标题[]和 LAION []已筛选 []。这样的组合产生了总计 1.26 亿张图像的数据集。

4.2数据注释

我们的主要目标是生成能够有效支持多任务学习的综合注释。因此，我们的注释工作涵盖了广泛的任务，并封装在三个离散的注释类别中：文本、区域-文本对和文本-短语-区域三元组，所示。数据注释工作流程包括三个基本阶段，每个阶段都确保注释的准确性和质量：（1）采用专业模型进行初始注释，（2）数据过滤以纠正错误并删除不相关的注释，以及（3）数据细化的迭代过程。

使用专业模型进行初步注释。

为了启动每种注释类型的注释过程，我们使用从专家模型获得的合成标签。这些专家模型是在各种公开数据集上训练的离线模型和托管在云平台上的在线服务的组合。它们经过专门定制，以擅长注释各自的注释类型。

值得注意的是，某些图像数据集可能已经包含某些注释类型的部分注释。例如，Object 365 []数据集已经包含人工注释的边界框和相应的类别作为区域文本注释。在这种情况下，我们将预先存在的注释与专家模型生成的合成标签合并。这种方法增强了注释的覆盖范围和多样性。
值得注意的是，某些图像数据集可能已经包含某些注释类型的部分注释。例如，Object 365 [] 数据集已经包含人工注释的边界框和相应的类别作为区域文本注释。在这种情况下，我们将预先存在的注释与专业模型生成的合成标签合并。这种方法增强了注释的覆盖率和多样性。

此外，特定注释（例如文本注释类型中的详细描述）由相当小的数据集表示。这本身就给获得高性能专家模型带来了挑战。因此，我们选择在初始注释阶段省略这些任务。这些任务的注释稍后在迭代数据细化过程中生成。

总而言之，通过严格的初始注释程序，我们确保 1.26 亿张图像的聚合数据集在大多数注释类型中得到全面标记。

数据过滤和增强。

从专家模型获得的初始注释虽然全面，但容易受到噪声和不精确的影响。为了应对这一挑战，我们实施了一个多方面的过滤过程来改进和消除不需要的注释。我们的通用过滤协议主要关注注释中的两种数据类型：文本和区域数据。

首先，关于文本注释，我们受到了 DiHT 的启发[]并开发基于 SpaCy 的解析工具[]来提取对象、属性和动作。我们过滤掉包含过多对象的文本，因为它们容易引入噪音，并且可能无法准确反映相应图像中的实际内容。此外，我们通过测量动作和对象的依赖解析树中的节点度来评估它们的复杂度。我们保留具有一定最小动作和对象复杂度的文本，以确保图像中视觉概念的丰富性。

其次，关于区域标注，特别是边界框，我们会移除置信度分数阈值以下的噪声框。除此之外，我们还采用非最大抑制来减少冗余或重叠的边界框。

迭代数据细化。

使用经过筛选的初始注释，我们训练了一个处理数据序列的多任务模型。在根据我们的训练图像评估此模型后，我们发现其预测效果显著增强，尤其是在原始标签被不准确或外部噪音（例如替代文本）破坏的情况下。受这些发现的启发，我们将这些更新的注释与原始注释集成在一起，并对模型进行了另一次训练迭代。这种循环改进过程逐步提高了我们训练数据集的质量。

对于我们最初由于数据不足而无法训练出稳健的专家模型而避开的任务，我们利用迭代训练的模型进行预训练。随后，使用稀疏数据集对该预训练模型进行微调，与使用相同数据从头开始训练的模型相比，该模型表现出了更优的性能。因此，我们利用微调后的模型作为专家来注释我们包含 1.26 亿张图像的庞大数据集，确保全面的注释覆盖。

图4：FLD-5B数据集中的图像及其相应注释的说明性示例。FLD -5B中的每幅图像都由 Florence 数据引擎标注了文本、区域-文本对和文本-短语-区域三元组，涵盖了多个空间层次、从简要到详细的渐进粒度和广泛的语义谱，从而能够从不同角度实现更全面的视觉理解。

4.3注释特定的变体

中，我们介绍了一般的注释工作流程。本节将深入研究每种注释类型以及注释过程的相应变化。

文本。

文本注释使用三种粒度对图像进行分类：简短、详细和更详细。简短文本仅包含一句话，展示最显著的对象和活动，类似于 COCO 标题 []。相比之下，详细文本和更详细的文本包含多个句子，这些句子用更丰富的对象、属性和动作来描述图像。

对于简短文本，Florence-2模型在公开可用的图像标题和图像文本数据集上作为专家进行训练，从而创建用于初始注释的图像到文本模型。使用迭代细化来最大限度地减少这些文本中的噪音。对于详细文本，包括现有图像注释（如简短文本和区域文本注释）的提示被输入到大型语言模型 (LLM) 或大型多模态模型 (LMM) 以生成全面描述。由于大型模型的成本高昂，因此仅生成一小部分详细文本和更详细的文本。这些用于微调标题专家，开发详细描述专家以进行进一步注释。

区域-文本对。

区域-文本对为图像中的语义区域提供描述性文本注释。语义区域包括视觉对象区域以及文本区域。该区域由围绕该区域的紧密边界框表示。此外，每个区域都可以用不同程度的粒度进行注释，包括短语和句子，这有助于更深入地理解该区域。

对于文本区域和视觉对象区域，区域-文本对的注释不同。使用 Azure AI 服务的 OCR API 标记文本区域 []，而视觉对象最初用 DINO 对象检测器进行注释 []在公共数据集上进行训练。数据过滤（包括置信度阈值和非最大抑制）可去除噪声框。通过从具有裁剪图像区域的图像到文本模型生成的简短文本，进一步丰富了视觉对象区域的文本注释。然后，每个区域都会收到三个文本注释：来自对象类别的短语、简短文本和来自简短文本的名词短语块。Florence-1 []模型确定与每个图像区域最相似的文本注释。

文本-短语-区域三元组。

文本-短语-区域三元组由图像的描述性文本、文本中与图像对象相关的名词短语以及这些对象的区域注释组成。文本包括先前生成的简短、详细和更详细的文本。对于每个文本，Grounding DINO 模型 []识别名词短语并为其创建边界框。此外，SAM 模型 []为每个框生成分割掩码，提供更精确的对象定位。在数据过滤过程中，对名词短语和边界框应用置信度分数阈值以确保相关性。黑名单还用于排除不相关的名词短语，如代词和抽象概念。

数据集	代表模型	#图片	#注释	空间层次	语义粒度
JFT300M [] JFT300M []	维生素	3亿	3亿	图像级	粗
智慧教育 []	夹子	4亿	4亿	图像级	粗
SA-1B []	山姆	1100 万	1B	区域级	非语义
GrIT []	科斯莫斯-2	9100 万	1.37 亿	图像和区域级别	细粒度
M3W []	火烈鸟	1.85亿	4330万*	多图像级别	细粒度
FLD-5B （我们的）	佛罗伦萨-2 （我们的）	126 万	5B	图像和区域级别	从粗到细

表1：与视觉基础模型训练中的数据集进行比较。 *Flamingo 的注释按文档数计算，每个文档可能有多张图片。

5数据集

中的数据引擎构建的 FLD-5B的统计数据和分析。我们首先概述该数据集，并将其与最近的研究进行比较。然后，我们进一步分析已建立的数据集中的详细注释统计数据、语义覆盖率和空间覆盖率。

5.1概述

按照数据引擎，我们构建了一个大规模训练集 ( FLD-5B )，其中包含 126M 幅图像、超过5 亿条文本注释、13 亿条区域文本注释和36 亿条文本短语区域注释。每幅图像都标注有文本、区域文本对和文本短语区域三元组，每种注释类型都有多个实例，粒度各不相同。中给出了图像及其相应注释的说明性示例。

中对我们的数据集和常用于训练基础模型的现有数据集进行了比较。我们的数据集比以前的数据集有几个优势，例如总体和每幅图像的注释更多。此外，我们数据集中的注释涵盖了多个空间和语义粒度级别，这使得视觉理解任务更加多样化和全面。

5.2数据分析

注释统计。

所示。

首先，我们有大约5 亿条文本注释，包括不同长度的简短、详细和更详细的文本。值得注意的是，与类似于 COCO 字幕的简短文本相比，我们的详细和更详细的文本的标记数量分别是 4 倍和 9 倍 []。这些冗长的注释提供了更丰富的信息，便于全面直观地理解。

此外，我们的数据集拥有约13 亿个区域文本注释，比 OpenImages 等学术对象检测数据集大 30 倍以上。]和 Object 365 []。平均而言，每幅图像有大约 5 个区域，每个区域都用短语或相对较长的简短文本进行注释。请注意，区域简短文本（平均 2.55 个标记）比典型的简短文本注释（平均 7.95 个标记）短，因为区域简短文本注释实际上包括基于 Florence-1 分数的短语、名词块和简短文本的混合。更多详细信息可参见第- 区域文本对。

此外，我们收集了文本-短语-区域注释，其中包含5 亿个以上的短语-区域对。具体而言，简短文本注释平均有 4.27 个短语-区域对，而详细和更详细的文本注释有超过 10 对，这表明更丰富的文本注释涵盖了文本中更多的对象及其对应的短语。

注释类型	文本类型	#图像注释	#平均代币数量	#地区	#平均地区	#区域平均代币
文本	简短的	2.35亿	7.95	-	-	-
	详细的	126 万	31.65	-	-	-
	更详细	126 万	70.53	-	-	-
区域文本	短语	126 万	-	681米	5.42	1.19
	简短的	126 万	-	681米	5.42	2.55
文本短语区域	简短的	2.35亿	7.95	1007米	4.27	1.93
	详细的	126 万	31.65	1289米	10.25	1.49
	更详细	126 万	70.53	1278米	10.17	1.35

表 2：FLD-5B数据集的注释统计。

语义覆盖。

我们的文本注释包含各种文本类型，涉及不同级别的细节。为了评估语义覆盖范围，我们使用了 SpaCy []用于标记和解析，灵感来自 DiHT []。此过程产生词性 (POS) 标记和标记之间的依存关系解析树。我们根据 POS 标记建立启发式规则，将标记分类为语义元素类型，例如。、对象、属性、动作和专有名词。此外，我们引入了标记复杂度的概念，当将依赖解析树视为无向图时，通过标记在依赖解析树中的总度数来衡量。这种复杂性反映了语义连接的丰富性。在我们的研究中，我们专注于测量对象和动作的复杂性。

列出了语义元素的平均数量及其相应的复杂度的统计数据。结果表明，随着文本注释中包含更多细节，所有测量值都会增加。值得注意的是，平均动作的提升最为显著，详细和更详细的文本表现出 7×和 15×与简短文本相比，分别增加了。这凸显了传统简短文本注释在描述图像动作方面的局限性。相反，专有名词的增量相对较低，这可能是因为专家通常比使用特定的专有名词更笼统地描述对象。在复杂性测量方面，对象和动作在详细的文本注释中都表现出更多的语义联系。动作的复杂性表现出更高的改进，这与我们对动作数量增加的观察一致。

文本类型	简短的	详细的	更详细
#图像注释	2.35亿	126 万	126 万
#平均代币数量	7.95	31.65	70.53
#平均对象	3.23	13.31	28.06
#Avg 属性	2.80	7.27	16.25
#平均操作	0.58	4.21	8.76
#专有名词	1.10	2.40	2.41
平均对象复杂度	2.80	4.00	4.02
平均动作复杂度	1.14	3.63	4.38

表 3：FLD-5B数据集中语义元素平均数量及相应复杂度的统计。

空间覆盖。

我们的区域-文本和文本-短语-区域注释以边界框和蒙版表示，可捕捉图像内视觉概念的位置。所示，框面积的分布表明区域-文本对中存在更多小框，而文本-短语-区域三元组中的框大小分布均匀。这种差异源于这些框的不同来源：区域-文本对的对象检测器和文本-短语-区域三元组的基础模型，后者将框与表示局部和总体图像概念的文本短语对齐。说明了长宽比的对数格式分布。区域-文本对和文本-短语-区域三元组表现出相似的对称分布，涵盖了广泛的长宽比。和中显示的每种注释类型的框中心热图表明存在中心偏差，其中区域-文本对显示出比文本-短语-区域三元组更均匀的分布。

（一个）

（二）

（三）

（四）

图5：FLD-5B数据集中的边界框分布。

6实验

我们的Florence-2模型在FLD-5B上进行训练，以学习通用图像表征。我们的实验主要分为三个部分：（1）我们评估了我们的方法在各种任务上的零样本性能，以显示其使用单一通用模型处理多项任务的固有能力，而无需对特定于任务的数据进行任何额外的微调。（2）我们通过使用各种任务上的额外监督数据进一步训练单一通用模型来展示我们方法的适应性，从而实现具有竞争力的最先进的性能。（3）我们检查学习到的视觉表征在下游任务上的性能，以此作为主干，以显示我们的预训练方法相对于以前方法的优越性。

6.1设置

我们研究了两种不同大小的模型变体：具有 2.32 亿个参数的Florence-2-B模型和具有 7.71 亿个参数的Florence-2-L模型。给出了每个模型的详细架构。我们从 UniCL [初始化图像编码器和多模态编码器-解码器的权重 ]和 BART []，分别。

我们采用 AdamW []学习率余弦衰减 []来训练我们的模型。我们利用 Deepspeed []和混合精度来提高训练效率。最大学习率设置为1埃−4对于基础模型和1埃−5对于大型模型，在前 5,000 个优化步骤中，应用线性预热至最大学习率。

我们训练模型的批量大小为 2048/3072（基础/大），图像大小为 384×384直到达到30亿个有效训练样本。类似于 [，，，，]，我们进一步进行高分辨率调优，图像尺寸为768×768 表示基础模型的 5 亿个样本和大型模型的 1 亿个样本。

6.2跨任务的零样本评估

方法	#参数	COCO 帽。	无大写字母	文字大写	COCO 侦探。	Flickr30k		雷夫科科		瑞可可+		雷夫科科格		雷夫科科 RES
	测试	瓦尔	瓦尔	val2017	测试	瓦尔	测试-A	测试-B		瓦尔	测试-A	测试-B		瓦尔	测试		瓦尔
	苹果酒	苹果酒	苹果酒	地图	R@1	准确性		准确性		准确性		平均
火烈鸟 []	80B	84.3	-	-	-	-		-	-	-		-	-	-		-	-	-
宇宙-2 号]	1.6亿	-	-	-	-	78.7		52.3	57.4	47.3		45.5	50.7	42.2		60.6	61.7	-
佛罗伦萨-2-B	0.23亿	133.0	118.7	70.1	34.7	83.6		53.9	58.4	49.7		51.5	56.4	47.9		66.3	65.1	34.6
佛罗伦萨-2-L	0.77亿	135.6	120.8	72.8	37.5	84.4		56.3	61.6	51.4		53.6	57.9	49.9		68.0	67.0	35.8

表 4：通用视觉基础模型的零样本性能。模型在训练期间看不到评估任务的训练数据。Florence -2模型在FLD-5B数据集上进行了预训练。Karpathy 测试拆分用于 COCO 字幕评估。

我们提出了一个强大的视觉基础模型，该模型不需要针对特定任务的监督注释进行微调。我们模型的零样本性能如所示。对于图像级任务，Florence-2-L在 COCO 字幕基准上获得了 135.6 CIDEr 分数 []，与 80B Flamingo 相比，其参数利用率不到 1% []模型（其 CIDEr 得分为 84.3）。对于区域级基础和指称表达理解任务，Florence-2-L在零样本性能方面创下了新纪录，在 Flickr30k [] Recall@1，以及 Refcoco、Refcoco+ 和 Refcocog 的绝对改进分别约为 4%、8% 和 8% []，与 Kosmos-2 相比 []模型，该模型有 16 亿个参数。此外，我们的预训练模型在 Refcoco 指涉表达分割 (RES) 中实现了 35.8% 的 mIOU []任务，这是以前的基础模型所不支持的功能。

6.3具有公共监督数据的通才模型

方法	#参数	COCO 标题	无大写字母	文字大写	视频量化音频	文本VQA	VizWiz 视觉质量评估
Karpathy 检验	瓦尔	瓦尔	测试开发	测试开发	测试开发
苹果酒	苹果酒	苹果酒	账户	账户	账户
*专业模特*
可可钙 []	2.1B	143.6	122.4	-	82.3	-	-
BLIP-2 []	7.8亿	144.5	121.6	-	82.2	-	-
GIT2 []	5.1B	145	126.9	148.6	81.7	67.3	71.0
火烈鸟 []	80B	138.1	-	-	82.0	54.1	65.7
巴利 []	17B	149.1	127.0	160.0 △	84.3	58.8 / 73.1 △	71.6 / 74.4 △
PaLI-X [] 帕里 X []	55B	149.2	126.3	147 / 163.7 △	86.0	71.4 / 80.8 △	70.9 / 74.6 △
*通才模型*
统一输入输出 []	2.9亿	-	100	-	77.9	-	57.4
佛罗伦萨-2-B	0.23亿	140.0	116.7	143.9	79.7	63.6	63.6
佛罗伦萨-2-L	0.77亿	143.3	124.9	151.1	81.7	73.5	72.6

表 5：专家模型和通才模型在字幕和 VQA 任务上的表现。专家模型是指针对每项任务进行专门微调的模型，而通才模型则表示以与任务无关的方式进行微调的单一模型，适用于所有任务。△表示使用外部 OCR 作为输入。

*专业模特*
方法	#参数	COCO 侦探。	Flickr30k		雷夫科科		瑞可可+		雷夫科科格		雷夫科科 RES
	val2017	测试	瓦尔	测试-A	测试-B		瓦尔	测试-A	测试-B		瓦尔	测试		瓦尔
	地图	R@1	准确性		准确性		准确性		平均
序列TR []	-	-	-		83.7	86.5	81.2		71.5	76.3	64.9		74.9	74.2	-
PolyFormer []	-	-	-		90.4	92.9	87.2		85.0	89.8	78.0		85.8	85.9	76.9
联合未来 []	0.74亿	60.6	-		92.6	94.3	91.5		85.2	89.6	79.8		88.7	89.4	-
雪貂 []	13B	-	-		89.5	92.4	84.4		82.8	88.1	75.2		85.8	86.3	-
*通才模型*
UniTAB []		-	-		88.6	91.1	83.8		81.0	85.4	71.6		84.6	84.7	-
佛罗伦萨-2-B	0.23亿	41.4	84.0		92.6	94.8	91.5		86.8	91.7	82.2		89.8	82.2	78.0
佛罗伦萨-2-L	0.77亿	43.4	85.2		93.4	95.3	92.0		88.3	92.9	83.6		91.2	91.7	80.5

表 6：专家模型和通用模型在区域级任务上的表现。专家模型是指针对每项任务进行专门微调的模型，而通用模型是指以与任务无关的方式进行微调的单一模型，适用于所有任务。

我们展示了我们的模型作为视觉基础的多功能性和有效性，可以将其转移到各种下游任务。我们通过添加涵盖图像级、区域级、像素级任务的公共数据集集合来微调Florence-2模型，从而为各种视觉任务生成一个通用模型。数据集集合的详细信息在中提供。和表将我们的模型与其他最先进的模型进行了比较。我们的主要发现是：

设计简单，性能强大。

Florence-2在无需特殊设计的标准多模态 Transformer 编码器-解码器方面表现出色，尤其是在区域级和像素级任务中。例如，Florence-2-L 的表现优于 PolyFormer []在 RefCOCO REC 任务和 RES 任务上分别提高了 3.0 [email protected] 和 3.54 mIOU，其中 PolyFormer []采用专门设计的基于回归的坐标预测头。Florence-2-L也优于之前的 SOTA 方法 UNINEXT []在 RefCOCO 上的准确度提高了 [email protected]，其中 UNINEXT []基于先进的物体检测器 Deformable DETR []和 DINO []。
Florence-2 使用标准的多模态 Transformer 编码器-解码器展示了强大的性能，无需特殊设计，特别是对于区域级和像素级任务。例如，Florence-2-L 在 RefCOCO REC 任务和 RES 任务上的性能分别比 PolyFormer [] 高出 3.0 [email protected] 和 3.54 mIOU，而 PolyFormer [] 采用专门设计的基于回归的坐标预测头。Florence-2-L 在 RefCOCO 上的性能也比以前的 SOTA 方法 UNINEXT [] 高出 0.8 [email protected]，其中 UNINEXT [] 基于先进的物体检测器 Deformable DETR [] 和 DINO []。

以更少的参数实现有竞争力的性能。

Florence-2-L无需 LLM 即可实现具有竞争力的性能，展现了在保持紧凑尺寸的同时处理各种任务的效率。例如，Florence-2-L在 COCO Caption karpathy 测试拆分中获得了 140.0 的 CIDEr 分数 []，其表现明显优于参数更多的模型，例如 Flamingo（80B 参数，138.1 CIDEr 分数）。

跨任务级别的适应性概括。

Florence-2在图像级、像素级和区域级任务中表现出色，凸显了其在解决计算机视觉和自然语言处理各种挑战方面的适应性和有效性。例如，在 TextVQA 任务中，Florence-2-L在没有任何外部 OCR 标记输入的情况下以 81.5 的准确率创下了新的最佳性能，超越了之前的 SOTA 方法 [，]。

这些成就凸显了佛罗伦萨-2号在保持紧凑尺寸的同时处理多样化任务的效率，使其成为不断发展的人工智能研究和应用领域中独特而宝贵的资产。

6.4下游任务微调

在本节中，我们将研究单一模型微调在下游任务上的表现。这项实验凸显了Florence-2预训练相对于以前方法的优势，因为它证明了学习到的通用图像表示的有效性。我们在实验中使用了约 80M 个参数的基数模型，以确保与其他方法进行公平比较。

（一个）Mask-RCNN 在 COCO 检测中的应用。

（二）DINO 对 COCO 进行检测。

（三）ADE20K 上的 UpperNet。

图6：COCO 对象检测和分割以及 ADE20K 语义分割任务的训练效率。

物体检测和分割。

我们进行 COCO 对象检测和实例分割 []使用 Mask R-CNN 进行实验 []，以及 COCO 物体检测 [] DINO 实验 []进一步证明了Florence-2预训练的有效性。我们在train2017分割上进行训练，并在val2017分割上进行评估。

对于 Mask R- CNN]实验中，我们遵循 [，]，我们使用标准1×（12 个 epoch）计划，所有实验均采用多尺度训练。在 67% 和 89% 的训练 epoch 时，学习率降低 0.1 倍。我们在训练期间不使用任何额外的增强（如随机裁剪、马赛克等）或优化技术（如 EMA、权重正则化），以确保公平比较。我们也不使用任何测试时间增强 (TTA)。得益于Florence-2预训练学到的强大的通用表示，我们不需要更长的训练 epoch，例如 [，，，]，或 100 个 epoch（以 [表示）]，以取得更好的效果。
对于 Mask R- CNN]实验中，我们遵循 []，我们使用标准 1 × （12 个纪元）时间表，所有实验都进行多尺度训练。在 67% 和 89% 的训练 epoch 中，学习率下降了 0.1 倍。在训练期间，我们不会使用任何其他增强（例如随机裁剪、马赛克等）或优化技术（例如 EMA、权重归一化）来确保公平的比较。我们也不使用任何测试时间增强（TTA）。由于 Florence-2 预训练学到的强大的通用表示，我们不需要更长的训练 epoch，例如 [，，， ] 中的 36 个 epoch，或 [] 中的 100 个 epoch，以获得更好的结果。

对于 DINO []实验中，我们训练 DINO-4scale []检测器 12 个时期（1×）使用与[相同的数据增强策略 ]。

首先，与其他方法相比，我们的基础模型实现了显著的性能提升。如 所示，我们由Florence-2预训练的 DaViT-B 模型超越了之前由 FCMAE 预训练的最佳基础模型（ConvNext v2-B） []，增加0.7一个磷b使用 Mask RCNN。重要的是，虽然 ConvNeXt v2-B 利用了 3×时间表（36个时期），我们的模型有效地采用了1×得益于我们强大的预训练通用表示，我们的模型在 DINO 框架中的表现明显优于 ViT-B，实现了 4.2 AP 的显著提升。

和所示，与使用监督 ImageNet-1k 预训练的模型相比，使用Florence-2预训练的模型效率提高了 4 倍，使用 Mask-RCNN 和 DINO 框架的模型分别实现了 6.9 AP 和 5.5 AP 的显著提升。

第三，我们的预训练提供了良好的通用表示，无需进行大量微调。表明，当前两个阶段冻结时，使用Florence-2预训练的模型保持了具有竞争力的性能，对于 Mask-RCNN 和 DINO，分别只有 0.3 和 0.2 的下降。此外，对于 Mask-RCNN 和 DINO，使用完全冻结主干的方法可以比使用监督 ImageNet-1k 预训练的模型高出 1.6 和 2.4。

		掩膜R-CNN
骨干	预训练	美联社	平均	美联社
维生素B []	MAE，印第安纳州-1k	51.6	45.9	55.0
斯温-B []	超强 IN-1k	50.2	-	53.4
斯温-B []	模拟MIM []	52.3	-	-
FocalAtt-B []	超强 IN-1k	49.0	43.7	-
FocalNet-B []	超强 IN-1k	49.8	44.1	54.4
ConvNeXt v1-B []	超强 IN-1k	50.3	44.9	52.6
ConvNeXt v2-B []	超强 IN-1k	51.0	45.6	-
ConvNeXt v2-B []	联邦机械工程师联合会	52.9	46.6	-
DaViT-B [] 达维T-B []	佛罗伦萨-2	53.6	46.4	59.2

表 7：使用 Mask-RCNN 框架的COCO 对象检测和实例分割结果，以及使用 DINO-4scale 框架的COCO 对象检测结果。所有参赛作品均使用基础尺寸模型以确保公平比较。对于 Mask-RCNN 实验，我们的方法利用 1×时间表（12 个 epoch），ViT-B 使用 100 个 epoch，其他所有使用 3 个×（36 个时期）。对于 DINO 实验，所有条目都使用 1×除 ViT-B 之外的计划均使用 50 个时期。

预训练	冻结阶段		掩膜R-CNN		迪诺		优普网络
	美联社	平均		美联社		平均
超级 IN1k	无		46.7	42.0		53.7		49
大学英语 []	无		50.4	45.0		57.3		53.6
佛罗伦萨-2	无		53.6	46.4		59.2		54.9
佛罗伦萨-2	[1]		53.6	46.3		59.2		54.1
佛罗伦萨-2	[1, 2]		53.3	46.1		59.0		54.4
佛罗伦萨-2	[1, 2, 3]		49.5	42.9		56.7		49.6
佛罗伦萨-2	[1, 2, 3, 4]		48.3	44.5		56.1		45.9

表 8：在 COCO 和 ADE20K 数据集上进行下游任务微调。使用 Mask R-CNN 和 DINO 进行COCO 对象检测。使用 UperNet 进行ADE20K 语义分割。所有参赛作品均使用具有 80M 参数的 DaViT-B 作为主干，并使用标准 1×日程。

语义分割。

我们用UperNet进行语义分割实验 [] ADE20k 上的框架 []数据集。我们主要遵循 Swin []。具体来说，我们使用输入大小 512×512，对模型进行 40k 次迭代训练，批量大小为 64。我们采用 AdamW []优化器，最佳学习率从{8e-4,4e-4,2e-4,1e-4}中搜索。
我们用UperNet进行语义分割实验 [] ADE20k 上的框架 []数据集。我们主要遵循 Swin [].具体来说，我们使用输入大小 512 × 512，并训练模型进行 40k 次迭代，批处理大小为 64。我们采用 AdamW [] 优化器，从 {8e-4,4e-4,2e-4,1e-4} 中搜索最佳学习率。

所示，我们的基础模型优于之前的 SoTA 模型，即 BEiT 预训练的 ViT-B []，在单尺度和多尺度测试协议中分别提高了 1.3 和 1.4 分。使用与 DaViT-B 相同的主干架构 []，Florence-2预训练模型取得了 4.9 分和 4×与 ImageNet-1k 预训练版本相比，其效率更高，如和所示。

骨干	预训练	平均	ms-mIoU 毫秒 mIoU
维生素B []	超强 IN-1k	47.4	-
维生素B []	MAE IN-1k	48.1	-
维生素B []	商务电子技术	53.6	54.1
维生素B []	BEiTV2 IN-1k	53.1	-
维生素B []	BEiTV2 IN-22k	53.5	-
斯温-B []	超强 IN-1k	48.1	49.7
斯温-B []	超级 IN-22k	-	51.8
斯温-B []	模拟MIM []	-	52.8
FocalAtt-B []	超强 IN-1k	49.0	50.5
FocalNet-B []	超强 IN-1k	50.5	51.4
ConvNeXt v1-B []	超强 IN-1k	-	49.9
ConvNeXt v2-B []	超强 IN-1k	-	50.5
ConvNeXt v2-B []	联邦机械工程师联合会	-	52.1
DaViT-B []	佛罗伦萨-2	54.9	55.5

表 9：使用UperNet的ADE20K语义分割结果。输入大小为512×512对于所有条目，除了使用 BEiT 预训练的模型，这些模型使用的输入大小为640×640。

6.5消融研究

图7：多任务迁移。我们使用三种不同版本的Florence-2模型进行实验，每种模型都针对不同的图像标注级别进行训练：图像级别、图像和区域级别以及图像、区域和像素级别。然后，我们在四个下游任务上评估这些模型的迁移学习性能：COCO 标题、COCO 对象检测、Flickr30k 基础和 Refcoco 引用分割。

多任务转移。

在本研究中，我们的目标是找到最有效的预训练模型，用于在计算机视觉的各种下游任务中进行迁移学习。我们比较了三种不同的模型，每种模型都针对不同的任务组合进行了预训练：

图像级模型：仅在图像级任务上进行预训练

图像区域模型：针对图像级和区域级任务进行预训练

图像-区域-像素模型：针对图像级、区域级和像素级任务进行预训练

对于预训练，我们在FLD-5B数据集的子集上针对相同数量的有效样本（72M）优化了所有模型。

然后将这些模型转移到具有四个下游任务的组合数据集，每个任务代表不同级别的任务粒度：COCO 标题（图像级任务）、COCO 对象检测（区域级任务）、Flickr30k 接地（区域级任务）、RefCOCO 参考分割（像素级任务）。

所示。结果表明，在所有三个级别的任务上进行预训练的图像-区域-像素模型在四个下游任务中始终表现出竞争力。

对于 COCO 字幕任务，图像区域像素模型最初的表现比图像级模型和图像区域模型差，但最终实现了最终性能（133.4 CIDEr），仅比其他模型（134.6 CIDEr）稍差。

对于 COCO 对象检测任务，图像区域像素模型的表现明显优于图像级模型（28.3 对 0.1），并且仅比图像区域模型（29.7）略差。

对于 Flickr30k 基础任务，图像区域像素模型表现出色（78.1 召回率@1），与图像区域模型（79.1 召回率@1）相当，并且明显优于图像级模型（62.0 召回率@1）。

对于 RefCOCO 参照分割任务，图像区域像素模型明显优于图像级模型和图像区域模型，与其他模型（28.4 和 18.2 mIoU）相比实现了最高性能（31.6 mIoU）。

我们的研究结果表明，图像-区域-像素模型是针对图像、区域和像素级别的任务进行预训练的模型，是跨各种计算机视觉任务进行迁移学习的最有效的基础模型。该模型在我们评估的所有四个下游任务中都表现出色，并且始终优于图像级模型，并且在性能上与图像-区域模型相当或超过图像-区域模型。通过在不同粒度级别的任务上对模型进行预训练，我们可以确保基础模型能够更好地处理各种下游任务，从而为计算机视觉中的迁移学习提供通用且强大的解决方案。

模型缩放。

我们的目的是研究增加模型容量对计算机视觉中各种下游任务的零样本性能的影响。我们比较了两个模型： Florence-2-B和Florence-2-L ，它们分别有 232M 和 771M 个参数。描述了模型架构。我们在中展示了四个下游任务的零样本性能。大型模型在各种下游任务中的表现明显优于基础模型。

模型		标题		检测		接地		可再生能源
	苹果酒		美联社		召回@1		欠条	欠条
根据		118.7		19.7		76.3		18.6	17.8
大的		124.4		22.6		78.2		21.5	19.1

表 10：模型缩放。COCO标题和 COCO 对象检测的零样本性能、Flickr30k 基础、RefCOCO 参考表情分割 (RES)。

数据缩放。

我们进行了实验，研究预训练数据规模如何影响各种计算机视觉任务的零样本性能。我们使用四种不同的数据大小进行预训练：0.12M、0.36M、1.2M 和 12M 图像。所有模型均在FLD-5B数据子集上使用相同的有效样本大小 (72M) 进行训练。

数据	标题	检测	接地	可再生能源
尺寸	苹果酒	美联社	召回@1	欠条	欠条
0.12米	102.8	16.1	74.0	15.9	16.6
0.36米	114.3	18.7	75.8	16.6	16.4
1.2米	118.1	18.9	76.3	19.3	18.4
12米	118.7	19.7	76.3	18.6	17.8

表 11：数据缩放。COCO标题、COCO 对象检测、Flickr30k 基础、COCORef 引用分割的零样本性能。

展示了 COCO 标题、COCO 对象检测、Flickr30k 基础和 RefCoco 引用分割 (RES) 任务上的零样本性能结果。我们可以观察到，随着预训练数据大小的增加，下游任务上的零样本性能呈改善趋势（RES 除外，1.2M 数据的性能略优于 12M）。

我们在数据扩展方面的实验表明，较大的预训练数据大小通常可以提高计算机视觉中各种下游任务的零样本性能。这一发现表明，投资更大的预训练数据集可以为处理各种下游任务提供更有效、更通用的基础。

我们扩展数据的方法比单纯依赖人工注释要高效得多，因为大多数注释生成都是使用模型推理完成的。通过利用专业模型生成注释，我们可以大幅减少手动注释工作所需的时间和成本，手动注释通常涉及大量劳动力，并且可能会出现人为错误或不一致的情况。

此外，利用模型生成的注释使我们能够更快、更高效地扩展预训练数据集，从而让我们能够探索更大的数据量对计算机视觉中各种下游任务的模型性能的影响。这不仅有助于开发更有效、更通用的基础模型，而且还确保注释过程保持可持续性和可扩展性，因为对高质量标记数据的需求不断增长。

总之，我们的数据扩展方法通过利用专业模型的强大功能来生成注释，为传统人工注释方法提供了一种更有效的替代方案。这一策略使我们能够加速预训练过程，优化模型性能，并有效管理计算机视觉领域对标记数据日益增长的需求。

训练设置。

我们分析了模型的两个主要组件（即视觉编码器和多模态编码器-解码器）的基本模型训练设置。实验结果如

*冻结视觉编码器*
		标题	检测	接地	可再生能源
预电压	左前	苹果酒	美联社	召回@1	欠条	欠条
✓	✓	120.0	6.9	66.3	9.9	13.6
*解冻视觉编码器*
	✓	81.3	4.9	69.0	15.3	15.6
✓		117.4	19.6	75.2	21.5	19.3
✓	✓	118.7	19.7	76.3	18.6	17.8

表 12：基本组件。在 COCO 标题、COCO 对象检测、Flickr30k 基础和 COCORef 引用分割上的零样本性能。V Pre 和 L Pre 分别表示使用视觉和语言预训练初始化。

我们观察到，冻结视觉编码器不会影响需要图像级理解的任务的性能，但它会显著降低需要区域级或像素级理解的任务的性能（例如，COCO 对象检测的 AP 从 19.7 下降到 6.9）。以前的预训练视觉基础模型的方法主要侧重于图像级任务（例如，图像分类 [，]、图像-文本对比学习 [，]），这可能无法为它们提供足够的区域级和像素级技能来完成下游任务。因此，解冻视觉主干非常重要，使其能够学习区域级和像素级特征，以完成各种下游任务。

语言预训练权重对多模态编码器-解码器任务的影响因任务而异。需要更多文本理解的任务（例如字幕和基础）从使用语言预训练权重中获益不大（例如，COCO 字幕、Flickr30k 基础）。主要以视觉为中心的任务（例如对象检测和区域分割）从使用语言预训练权重中获益不大（对于 COCO 对象检测，增益仅为 0.1；对于仅使用定位标记的 RES 任务，下降为 2.91 mIOU）。

我们研究了不同的训练配置对基础模型在区域级和像素级任务中性能的影响。我们发现，解冻视觉主干对于增强模型从区域和像素中学习的能力至关重要，这有利于迁移到各种下游任务。此外，我们观察到使用语言预训练权重可以帮助模型完成需要文本理解的任务，但对纯基于视觉的任务影响较小。这些结果为选择不同计算机视觉任务的最佳训练设置提供了有用的指导。

7相关作品

7.1视觉语言基础模型

最近的视觉语言预训练模型 [，，]通过对比学习目标从各自的编码器中提取视觉和文本嵌入的对齐，在视觉语言对齐和图像分类任务中表现出了令人印象深刻的零样本迁移能力。 [，] . 这些模型（例如.， []），在弱大规模图像文本数据上进行训练，并进一步扩展到对象检测等更下游的任务，并通过特定于任务的自适应头实现了最先进的性能。

相比之下，其他研究 [，，，]提出使用多模态解码器以自回归方式预测文本，并以语言建模作为预训练目标。融合视觉和语言嵌入的技术多种多样：GIT []将视觉和文本标记连接起来作为解码器输入，并设计一个随意的注意力掩码，CoCa []使用具有可学习查询的注意力池来选择特定于任务的视觉表征，然后通过解码器进行交叉关注，而 Flamingo []将固定数量的视觉标记与感知器重采样器汇集在一起，并向解码器添加新的可学习交叉注意层，同时冻结预先训练的视觉编码器和文本解码器。

除了图像字幕预训练任务之外，一些研究 [，，]尝试在统一的序列到序列学习范式中制定更多视觉任务，包括对象检测和图像分割。定制的特殊标记可容纳纯文本以外的表示，例如边界框 [，，]。这种方法对预训练和下游任务使用相同的架构，可能对所有任务使用相同的权重集。我们的方法属于这一类，旨在获得能够理解简单图像级标题之外的密集信息的基础模型。它与其他多模态编码器-解码器模型共享相同的编码器-解码器设计 [，]适用于序列到序列的学习，但使用我们构建的大规模综合注释数据，而不是结合现有的稀疏注释数据。

7.2视觉数据集

全面的注解。

全面理解视觉场景的追求是计算机视觉的圣杯 []已经从关注单个数据集发展而来，每个数据集都针对一个视角，例如。、图像分类 []，提供多视角 [，，]，为每个视觉数据点提供全面的注释。值得注意的数据集，如 MS-COCO [，]和 Visual Genome []整合了各种类型的注释，从而能够更深入地理解空间和语义粒度，并实现注释之间更好的模型交互。然而，由于人工验证成本高昂，这些注释的大小有限。我们的数据集虽然规模庞大，但仍保持了全面的注释，涵盖文本、区域-文本对和文本-短语-区域三元组，减少了人工参与。

可扩展的注释。

：在过去十年中，视觉数据集已从数千个迅速扩大到[，]至十亿个例子[，]以涵盖更多视觉概念，从而实现更好的泛化。这种转变在最近使用大量数据的基础模型中显而易见 []。这些大型数据集通常从网络上收集图像，并从相应的元数据中解析出噪声注释，例如来自查询的类别标签 [，]，来自替代文本的简短描述 [，]，以及来自插入文本的详细描述 [，] . 尽管这些注释具有多样性，但它们也存在随机性和类型有限的问题（即。，仅限文本）。部分作品 [，]尝试使用迭代训练模型生成伪标签来扩展注释，从而提供更高的质量，而不会造成明显的多样性损失。我们的数据管道将这些大规模、网络爬取的嘈杂注释扩展为由多个专业模型生成的更高质量的自主注释。该管道迭代地细化标签并完成缺失的部分，从而产生一个可扩展且全面的数据集，用于学习统一的视觉表示。

8结论

Florence 项目致力于开发一个具有多种感知能力的基础视觉模型，涵盖空间层次和语义粒度。为此，我们构建了FLD-5B数据集，其中包含由 Florence 数据引擎收集的 126M 张图像和 5B 条综合注释。随后，我们通过统一的综合多任务学习在这个丰富的数据集上对Florence-2进行预训练。Florence -2表现出了卓越的零样本能力，可涵盖广泛的视觉任务，如字幕制作、物体检测、视觉基础和指称分割等。实验结果强调了Florence-2预训练的通用表征的效力，揭示了其对增强大量下游任务的重大贡献。

致谢。

我们衷心感谢所有参与 Florence 项目的 Azure AI 团队贡献者。我们衷心感谢 Misha Bilenko 提供的宝贵指导和支持。我们还要感谢 Yi-Ling Chen、Mengchen Liu、Yen-Chun Chen 和 Dongdong Chen 参与的有益讨论，以及 Yunsheng Li 对分割注释的帮助。还要衷心感谢 Qingfen Lin、Ryan Menezes、Kuan Lu、Gabe Blanco、Shohei Ono、Ping Jin、Jiahe Zhou、Xiong Qiao、Tong Bai、Xingchao Peng、Pei Guo、Lihang Li 在下游应用讨论中提供的宝贵反馈。特别感谢 Cha Zhang、Jinyu Li、Min Gao、Christina Sun、Oliver Ernst、Kevin Pan 和 Mei Gao 在数据注释支持方面的工作以及在数据管道中的深刻讨论。此外，我们还要感谢 Thomas Soemo 和 Nguyen Bach 提供的建设性反馈。

参考

[1]Azure ai 服务。。访问日期：2023-10-13。
[2]Jean-Baptiste Alayrac、Jeff Donahue、Pauline Luc、Antoine Miech、Iain Barr、Yana Hasson、Karel Lenc、Arthur Mensch、Katherine Millican、Malcolm Reynolds 等。Flamingo：一种用于小样本学习的视觉语言模型。神经信息处理系统的进展，35：23716–23736，2022年。
[3]Jimmy Lei Ba、Jamie Ryan Kiros 和 Geoffrey E. Hinton。层规范化，2016 年。
[4]鲍航波，李东，朴松浩，魏福如。BEiT：图像变换器的 BERT 预训练。在2022 年国际学习表征会议上。
[5]Rishi Bommasani、Drew A Hudson、Ehsan Adeli、Russ Altman、Simran Arora、Sydney von Arx、Michael S Bernstein、Jeannette Bohg、Antoine Bosselut、Emma Brunskill 等人。论基础模式的机遇与风险。arXiv 预印本 arXiv:2108.07258，2021年。
[6]汤姆·布朗、本杰明·曼、尼克·莱德、梅兰妮·苏比亚、贾里德·D·卡普兰、普拉富拉·达里瓦尔、阿尔文德·尼拉坎坦、普拉纳夫·希亚姆、吉里什·萨斯特里、阿曼达·阿斯克尔、桑迪尼·阿加瓦尔、阿里尔·赫伯特-沃斯、格雷琴·克鲁格、汤姆·亨尼汉、雷旺·柴尔德、阿迪亚·拉梅什、丹尼尔·齐格勒、杰弗里·吴、克莱门斯·温特、克里斯·赫塞、马克·陈、埃里克·西格勒、马特乌斯·利特温、斯科特·格雷、本杰明·切斯、杰克·克拉克、克里斯托弗·伯纳、萨姆·麦坎德利什、亚历克·拉德福德、伊利亚·苏茨克弗和达里奥·阿莫迪。语言模型是少量学习者。收录于 H. Larochelle、M. Ranzato、R. Hadsell、MF Balcan 和 H. Lin 编辑的《神经信息处理系统进展》第 33 卷，第 1877-1901 页。Curran Associates, Inc.，2020 年。
[7]尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛奈夫、尼古拉斯·乌苏尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端物体检测。在欧洲计算机视觉会议上，第 213-229 页。Springer，2020 年。
[8]玛蒂尔德·卡伦、伊尚·米斯拉、朱利安·迈拉尔、普里亚·戈亚尔、皮奥特·博亚诺夫斯基和阿曼德·朱林。通过对比聚类分配进行视觉特征的无监督学习。在《神经信息处理系统进展》中，第 33 卷，2020 年。
[9]Ting Chen、Simon Kornblith、Mohammad Norouzi 和 Geoffrey Hinton。用于视觉表征对比学习的简单框架。在国际机器学习会议上，第 1597-1607 页。PMLR，2020 年。
[10]Ting Chen、Saurabh Saxena、Lala Li、David J. Fleet 和 Geoffrey Hinton。Pix2seq：用于物体检测的语言建模框架，2022 年。
[11]Ting Chen、Saurabh Saxena、Lala Li、Tsung-Yi Lin、David J Fleet 和 Geoffrey E Hinton。视觉任务的统一序列接口。神经信息处理系统的进展，35：31333–31346，2022年。
[12]Xi Chen、Josip Djolonga、Piotr Padlewski、Basil Mustafa、Soravit Changpinyo、Jialin Wu、Carlos Riquelme Ruiz、Sebastian Goodman、Xiao Wang、Yi Tay 等。Pali-x：关于扩大多语言视觉和语言模型。arXiv 预印本 arXiv:2305.18565，2023年。
[13]Xinlei Chen、Hao Fang、Tsung-Yi Lin、Ramakrishna Vedantam、Saurabh Gupta、Piotr Dollár 和 C Lawrence Zitnick。Microsoft coco 标题：数据收集和评估服务器。arXiv 预印本 arXiv:1504.00325，2015年。
[14]陈曦、王晓、Lucas Beyer、Alexander Kolesnikov、吴嘉琳、Paul Voigtlaender、Basil Mustafa、Sebastian Goodman、Ibrahim Alabdulmohsin、Piotr Padlewski、Daniel Salz、熊曦、Daniel Vlasic、Filip Pavetic、荣可然、余天丽、Daniel Keysers、翟晓华和 Radu Soricut。Pali-3 视觉语言模型：更小、更快、更强，2023 年。
[15]陈曦、王晓、Soravit Changpinyo、AJ Piergiovanni、Piotr Padlewski、Daniel Salz、Sebastian Goodman、Adam Grycner、Basil Mustafa、Lucas Beyer、Alexander Kolesnikov、Joan Puigcerver、丁楠、荣凯然、Hassan Akbari、Gaurav Mishra、薛林婷、Ashish Thapliyal、James Bradbury、郭伟成、Mojtaba Seyedhosseini、贾超、Burcu Karagol Ayan、Carlos Riquelme、Andreas Steiner、Anelia Angelova、翟晓华、Neil Houlsby 和 Radu Soricut。Pali：一种联合扩展的多语言语言图像模型，2022 年。
[16]Bowen Cheng、Ishan Misra、Alexander G. Schwing、Alexander Kirillov 和 Rohit Girdhar。用于通用图像分割的蒙版注意掩码变换器。2022 年。
[17]Kyunghyun Cho、Bart Van Merriënboer、Caglar Gulcehre、Dzmitry Bahdanau、Fethi Bougares、Holger Schwenk 和 Yoshua Bengio。使用 rnn 编码器-解码器学习短语表示以进行统计机器翻译。arXiv 预印本 arXiv: 1406.1078，2014 年。
[18]邓家、董卫、理查德·索彻、李丽佳、李凯和李飞飞。Imagenet：一个大规模分层图像数据库。2009年IEEE 计算机视觉和模式识别会议，第 248-255 页。Ieee，2009 年。
[19]Jacob Devlin、Ming-Wei Chang、Kenton Lee 和 Kristina Toutanova。Bert：用于语言理解的深度双向变压器的预训练，2019 年。
[20]丁明宇、肖斌、诺埃尔·科德拉、罗平、王京东和陆远。吊艇架：双重注意视觉变换器。在计算机视觉 - ECCV 2022：第 17 届欧洲会议，以色列特拉维夫，2022 年 10 月 23-27 日，会议录，第 XXIV 部分，第 74-92 页。Springer，2022 年。
[21]Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov、Dirk Weissenborn、翟晓华、Thomas Unterthiner、Mostafa Dehghani、Matthias Minderer、Georg Heigold、Sylvain Gelly、Jakob Uszkoreit 和 Neil Houlsby。一张图片胜过 16x16 个单词：用于大规模图像识别的 Transformers，2021 年。
[22]亚什·戈亚尔、特贾斯·科特、道格拉斯·萨默斯·斯泰、德鲁夫·巴特拉和德维·帕里克。让 VQA 中的 V 变得重要：提升图像理解在视觉问答中的作用。在2017 年计算机视觉和模式识别会议（CVPR）上。
[23]Danna Gurari、李青、Abigale J Stangl、AnhongGuo、Chi Lin、Kristen Grauman、Jiebo Luo 和 Jeffrey P Bigham。Vizwiz 大挑战：回答盲人的视觉问题。在IEEE 计算机视觉和模式识别会议论文集，第 3608-3617 页，2018 年。
[24]何开明、陈欣蕾、谢赛宁、李阳浩、Piotr Dollár 和 Ross Girshick。蒙版自动编码器是可扩展的视觉学习器。在IEEE/CVF 计算机视觉和模式识别会议论文集，第 16000–16009 页，2022 年。
[25]何凯明、范浩琪、吴雨馨、谢赛宁和罗斯·吉尔希克。无监督视觉表征学习的动量对比。在IEEE/CVF 计算机视觉和模式识别会议论文集，第 9729–9738 页，2020 年。
[26]何凯明、Georgia Gkioxari、Piotr Dollár 和 Ross Girshick。掩膜版r-cnn。在IEEE 国际计算机视觉会议论文集，第 2961-2969 页，2017 年。
[27]何凯明、张翔宇、任少清、孙健。用于图像识别的深度残差学习。在IEEE 计算机视觉和模式识别会议论文集，第 770-778 页，2016 年。
[28]马修·霍尼巴尔、伊内斯·蒙塔尼、索菲·范·兰德格姆、阿德里安·博伊德等。spacy：Python 中的工业强度自然语言处理。2020 年。
[29]Chao Jia、Yinfei Yang、Ye Xia、Yi-Ting Chen、Zarana Parekh、Hieu Pham、Quoc V. Le、Yunhsuan Sung、Zhen Li 和 Tom Duerig。通过嘈杂文本监督扩大视觉和视觉语言表征学习，2021 年。
[30]安德烈·卡帕蒂和李飞飞。用于生成图像描述的深度视觉语义对齐。2015 年 IEEE 计算机视觉与模式识别会议（CVPR），第 3128-3137 页，2014 年。
[31]萨哈尔·卡齐姆扎德、文森特·奥多内斯、马克·马滕和塔玛拉·伯格。Referitgame：引用自然场景照片中的物体。在2014 年自然语言处理实证方法 (EMNLP) 会议论文集，第 787–798 页，2014 年。
[32]Alexander Kirillov、Eric Mintun、Nikhila Ravi、Hanzi Mao、Chloe Rolland、Laura Gustafson、Tete Shaw、Spencer Whitehead、Alexander C Berg、Wan-Yen Lo 等。对任何事物进行细分。arXiv 预印本 arXiv:2304.02643，2023年。
[33]Aniket Kittur、Ed Chi、Bryan A Pendleton、Bongwon Suh 和 Todd Mytkowicz。少数人的力量与群众的智慧：维基百科与资产阶级的崛起。万维网,1(2):19,2007。
[34]乔纳森·克劳斯、贾斯汀·约翰逊、兰杰·克里希纳和李飞飞。生成描述性图像段落的分层方法。在IEEE 计算机视觉和模式识别会议论文集，第 317-325 页，2017 年。
[35]乔纳森·克劳斯、贾斯汀·约翰逊、兰杰·克里希纳和李飞飞。生成描述性图像段落的分层方法。在计算机视觉和模式识别（CVPR），2017 年。
[36]Ranjay Krishna、Yuke Zhu、Oliver Groth、Justin Johnson、Kenji Hata、Joshua Kravitz、Stephanie Chen、Yannis Kalantidis、Li-Jia Li、David A Shamma 等人。视觉基因组：使用众包密集图像注释连接语言和视觉。国际计算机视觉杂志，123：32–73，2017。
[37]Alex Krizhevsky、Geoffrey Hinton 等人从微小图像中学习多层特征。2009年。
[38]Alex Krizhevsky、Ilya Sutskever 和 Geoffrey E Hinton。使用深度卷积神经网络进行 Imagenet 分类。在神经信息处理系统进展中，第 1097-1105 页，2012 年。
[39]Alina Kuznetsova、Hassan Rom、Neil Alldrin、Jasper Uijlings、Ivan Krasin、Jordi Pont-Tuset、Shahab Kamali、Stefan Popov、Matteo Malloci、Alexander Kolesnikov、Tom Duerig 和 Vittorio Ferrari。开放图像数据集 v4。国际计算机视觉杂志，128(7):1956–1981，2020 年 3 月。
[40]Alina Kuznetsova、Hassan Rom、Neil Alldrin、Jasper Uijlings、Ivan Krasin、Jordi Pont-Tuset、Shahab Kamali、Stefan Popov、Matteo Malloci、Alexander Kolesnikov 等。开放图像数据集 v4：统一的图像分类、对象检测和大规模视觉关系检测。国际计算机视觉杂志，128(7):1956–1981，2020年。
[41]Hugo Laurençon、Lucile Saulnier、Léo Tronchon、Stas Bekman、Amanpreet Singh、Anton Lozhkov、Thomas Wang、Siddharth Karamcheti、Alexander M Rush、Douwe Kiela 等。Obelisc：一个开放的网络规模过滤交错图像文本文档数据集。arXiv 预印本 arXiv: 2306.16527，2023 年。
[42]Yann LeCun、Corinna Cortes 和 CJ Burges。Mnist 手写数字数据库。ATT 实验室[在线]。可用：http://yann.lecun.com/exdb/mnist，2010年 2 月。
[43]Mike Lewis、Yinhan Liu、Naman Goyal、Marjan Ghazvininejad、Abdelrahman Mohamed、Omer Levy、Ves Stoyanov 和 Luke Zettlemoyer。Bart：用于自然语言生成、翻译和理解的去噪序列到序列预训练，2019 年。
[44]李俊楠、李东旭、西尔维奥·萨瓦雷斯和史蒂文·海。Blip-2：使用冻结图像编码器和大型语言模型引导语言图像预训练。arXiv 预印本 arXiv:2301.12597，2023年。
[45]李俊楠、李东旭、熊才明和史蒂文·霍伊。Blip：引导语言图像预训练，实现统一的视觉语言理解和生成。在国际机器学习会议上，第 12888-12900 页。PMLR，2022 年。
[46]李阳浩，毛汉子，罗斯·吉尔希克，何凯明。探索用于物体检测的平面视觉变换器主干。在欧洲计算机视觉会议上，第 280-296 页。Springer，2022 年。
[47]Tsung-Yi Lin、Michael Maire、Serge Belongie、Lubomir Bourdev、Ross Girshick、James Hays、Pietro Perona、Deva Ramanan、C. Lawrence Zitnick 和 Piotr Dollár。Microsoft coco：上下文中的常见对象，2015 年。
[48]Tsung-Yi Lin、Michael Maire、Serge Belongie、James Hays、Pietro Perona、Deva Ramanan、Piotr Dollár 和 C Lawrence Zitnick。Microsoft coco：上下文中的常见对象。在计算机视觉 - ECCV 2014：第 13 届欧洲会议，瑞士苏黎世，2014 年 9 月 6-12 日，会议录，第 V 部分 13 ，第 740-755 页。Springer，2014 年。
[49]刘江、丁辉、蔡兆伟、张雨婷、Ravi Kumar Satzoda、Vijay Mahadevan 和 R Manmatha。Polyformer：将图像分割称为连续多边形生成。在IEEE/CVF 计算机视觉与模式识别会议论文集，第 18653-18663 页，2023 年。
[50]刘世龙，曾朝阳，任天河，李峰，张浩，杨杰，李春元，杨建伟，苏航，朱军，等。基础恐龙：将恐龙与基础预训练结合起来，用于开放集物体检测。arXiv 预印本 arXiv:2303.05499，2023年。
[51]刘泽、林雨桐、曹悦、胡涵、魏艺轩、张正、林志伟和郭百宁。Swin transformer：使用移位窗口的分层视觉转换器，2021 年。
[52]刘壮、毛韩子、吴朝元、Christoph Feichtenhofer、Trevor Darrell 和谢赛宁。面向 2020 年代的卷积网络。在IEEE/CVF 计算机视觉和模式识别会议论文集，第 11976-11986 页，2022 年。
[53]伊利亚·洛什奇洛夫和弗兰克·哈特。Sgdr：带热重启的随机梯度下降，2017 年。
[54]伊利亚·洛什奇洛夫和弗兰克·哈特。解耦权重衰减正则化，2019 年。
[55]卢嘉森、克里斯托弗·克拉克、罗温·泽勒斯、鲁兹贝·莫塔吉和阿尼鲁达·肯巴维。Unified-io：视觉、语言和多模式任务的统一模型，2022 年。
[56]毛俊华、乔纳森·黄、亚历山大·托舍夫、瓦纳·坎布鲁、艾伦·L·尤尔和凯文·墨菲。生成和理解明确的对象描述。在IEEE 计算机视觉和模式识别会议论文集，第 11-20 页，2016 年。
[57]肯尼思·马里诺、穆罕默德·拉斯特加里、阿里·法哈迪和鲁兹贝·莫塔吉。Ok-vqa：需要外部知识的视觉问答基准，2019 年。
[58]亚伦·范登奥尔德、李亚哲和奥里奥尔·维尼亚尔斯。利用对比预测编码进行表示学习。arXiv 预印本 arXiv: 1807.03748，2018 年。
[59]彭志良、李东、鲍航波、叶启翔、魏福如。BEiT v2：使用矢量量化视觉标记器的蒙版图像建模。2022 年。
[60]彭志良、王文辉、董力、郝亚茹、黄少涵、马树明和魏福如。Kosmos-2：将多模式大型语言模型推向世界。arXiv 预印本 arXiv:2306.14824，2023年。
[61]Bryan A Plummer、王立伟、Chris M Cervantes、Juan C Caicedo、Julia Hockenmaier 和 Svetlana Lazebnik。Flickr30k 实体：收集区域到短语的对应关系，以构建更丰富的图像到句子模型。在IEEE 国际计算机视觉会议论文集，第 2641-2649 页，2015 年。
[62]Jordi Pont-Tuset、Jasper Uijlings、Soravit Changpinyo、Radu Soricut 和 Vittorio Ferrari。将视觉和语言与本地化叙述相连接。在ECCV ，2020 年。
[63]Filip Radenovic、Abhimanyu Dubey、Abhishek Kadian、Todor Mihaylov、Simon Vandenhende、Yash Patel、Yi Wen、Vignesh Ramanathan 和 Dhruv Mahajan。视觉语言预训练的过滤、提炼和硬否定。arXiv 预印本 arXiv:2301.02280，2023年。
[64]亚历克·雷德福、金钟旭、克里斯·哈拉西、阿迪亚·拉梅什、加布里埃尔·吴、桑迪尼·阿加瓦尔、吉里什·萨斯特里、阿曼达·阿斯克尔、帕梅拉·米什金、杰克·克拉克等。从自然语言监督中学习可转移的视觉模型。在国际机器学习会议上，第 8748-8763 页。PMLR，2021 年。
[65]Alec Radford、Jeff Wu、Rewon Child、David Luan、Dario Amodei 和 Ilya Sutskever。语言模型是无监督的多任务学习者。2019年。
[66]Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li 和 Peter J Liu。使用统一的文本到文本转换器探索迁移学习的极限。《机器学习研究杂志》，21(1):5485–5551，2020年。
[67]Jeff Rasley、Samyam Rajbhandari、Olatunji Ruwase 和 Yuxiong He。Deepspeed：系统优化支持训练具有超过 1000 亿个参数的深度学习模型。在第 26 届 ACM SIGKDD 国际知识发现与数据挖掘会议论文集，第 3505–3506 页，2020 年。
[68]克里斯托夫·舒曼、理查德·文库、罗曼·博蒙特、罗伯特·卡兹马克、克莱顿·穆利斯、阿鲁什·卡塔、西奥·库姆斯、杰尼亚·吉采夫和阿兰·小松崎。Laion-400m：经过剪辑过滤的 4 亿个图像-文本对的开放数据集。arXiv 预印本 arXiv:2111.02114，2021年。
[69]达斯汀·施文克、阿普尔夫·坎德尔瓦尔、克里斯托弗·克拉克、肯尼思·马里诺和鲁兹贝·莫塔吉。A-okvqa：使用世界知识进行视觉问答的基准，2022 年。
[70]邵帅、李泽明、张天元、彭超、余刚、张翔宇、李静、孙健。Objects365：用于物体检测的大规模高质量数据集。在IEEE/CVF 国际计算机视觉会议论文集，第 8430-8439 页，2019 年。
[71]Piyush Sharma、Nan Ding、Sebastian Goodman 和 Radu Soricut。概念标题：用于自动图像标题的清理过的、上位词的图像替代文本数据集。在ACL 论文集，2018 年。
[72]奥莱克西·西多罗夫、胡荣航、马库斯·罗尔巴赫和阿曼普里特·辛格。Textcaps：具有阅读理解功能的图像字幕数据集，2020 年。
[73]Amanpreet Singh、Vivek Natarajan、Meet Shah、Yu Jiang、Xinlei Chen、Dhruv Batra、Devi Parikh 和 Marcus Rohrbach。面向可以读取的 vqa 模型。在IEEE/CVF 计算机视觉和模式识别会议论文集，第 8317-8326 页，2019 年。
[74]孙基赫。通过多类 n 对损失目标改进深度度量学习。神经信息处理系统的进展，29，2016。
[75]Chen Sun、Abhinav Shrivastava、Saurabh Singh 和 Abhinav Gupta。重新审视深度学习时代数据的不合理有效性。在IEEE 国际计算机视觉会议论文集，第 843-852 页，2017 年。
[76]Ilya Sutskever、Oriol Vinyals 和 Quoc V Le。使用神经网络进行序列到序列的学习。神经信息处理系统的进展，27，2014。
[77]Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Łukasz Kaiser 和 Illia Polosukhin。你所需要的只是注意力。在神经信息处理系统进展中，第 5998-6008 页，2017 年。
[78]王剑锋、杨正元、胡小伟、李林杰、林凯文、甘哲、刘子成、刘策和王丽娟。Git：用于视觉和语言的生成式图像到文本转换器，2022 年。
[79]王鹏、安阳、门锐、林俊阳、白帅、李志康、马建新、周常、周静仁和杨红霞。Ofa：通过简单的序列到序列学习框架统一架构、任务和模态，2022 年。
[80]尼克·M·韦斯特斯特拉特 (Nic M Weststrate)、苏珊·布拉克 (Susan Bluck) 和朱迪思·格鲁克 (Judith Glück)。群众的智慧。剑桥智慧手册，第 97–121 页，2019 年。
[81]Sanghyun Woo、Shoubhik Debnath、Ronghang Hu、Xinlei Chen、Zhuang Liu、In So Kweon 和 Saining Xie。Convnext v2：使用掩蔽自动编码器共同设计和扩展卷积网络。在IEEE/CVF 计算机视觉与模式识别会议论文集，第 16133-16142 页，2023 年。
[82]肖特特、刘英成、周博雷、姜宇宁和孙健。用于场景理解的统一感知解析。在欧洲计算机视觉会议（ECCV）的论文集上，第 418-434 页，2018 年。
[83]谢振达、张正、曹悦、林雨桐、鲍建民、姚祝良、戴奇、胡涵。Simmim：一个简单的蒙版图像建模框架。在IEEE/CVF 计算机视觉与模式识别会议论文集，第 9653-9663 页，2022 年。
[84]严斌、姜毅、吴建南、王栋、罗平、袁泽焕和卢虎川。通用实例感知作为对象发现和检索。在IEEE/CVF 计算机视觉与模式识别会议论文集，第 15325-15336 页，2023 年。
[85]杨建伟、李春媛、戴希阳和高剑峰。焦点调制网络。神经信息处理系统的进展，35：4203–4217，2022年。
[86]杨建伟、李春元、张鹏川、戴喜阳、肖斌、袁璐和高剑峰。视觉转换器中局部-全局交互的焦点自我注意力。arXiv 预印本 arXiv:2107.00641，2021年。
[87]杨建伟、李春元、张彭川、肖斌、刘策、袁璐和高剑峰。图像-文本-标签空间中的统一对比学习，2022 年。
[88]杨正元、甘哲、王剑锋、胡晓伟、费萨尔·艾哈迈德、刘子成、路玉茂和王丽娟。Unitab：统一文本和框输出，用于扎实的视觉语言建模。在欧洲计算机视觉会议上，第 521-539 页。Springer，2022 年。
[89]圣公 Michael Yi、Mark Steyvers、Michael D Lee 和 Matthew J Dry。组合问题中的群体智慧。认知科学，36(3):452–470, 2012。
[90]尤浩轩、张浩天、甘哲、杜贤志、张博文、王子瑞、曹亮亮、常世福和杨银飞。雪貂：以任何粒度在任何地方参考和接地任何事物，2023 年。
[91]Peter Young、Alice Lai、Micah Hodosh 和 Julia Hockenmaier。从图像描述到视觉符号：针对事件描述进行语义推理的新型相似度度量。《计算语言学协会会刊》，2：67–78，2014。
[92]于嘉慧、王子睿、Vijay Vasudevan、Legg Yeung、Mojtaba Seyedhosseini 和吴永辉。Coca：对比字幕是图像文本基础模型，2022 年。
[93]于立成、Patrick Poirson、Shan Yang、Alexander C Berg 和 Tamara L Berg。在指称表达式中建模上下文。在计算机视觉 - ECCV 2016：第 14 届欧洲会议，荷兰阿姆斯特丹，2016 年 10 月 11-14 日，会议录，第 II 部分 14 ，第 69-85 页。Springer，2016 年。
[94]于立成、Patrick Poirson、Shan Yang、Alexander C. Berg 和 Tamara L. Berg。在指称表达式中建模上下文。由 Bastian Leibe、Jiri Matas、Nicu Sebe 和 Max Welling 编辑， 《计算机视觉 - ECCV 2016》，第 69-85 页，Cham，2016 年。Springer International Publishing。
[95]Lu Yuan, Dongdong Chen, Yi-Ling Chen, Noel Codella, Xiyang Dai,jianfeng high, Houdong Hu, Xudong Huang, Boxin Li, Chunyuan Li, Ce Liu, Mingchen Liu, Zi Cheng Liu, Yumao Lu, Yu Shi, Lijuan Wang,王剑锋、肖斌、肖震、杨建伟、曾迈克尔、周洛伟和张彭川。佛罗伦萨：计算机视觉的新基础模型。arXiv 预印本 arXiv:2111.11432，2021年。
[96]翟小华、Alexander Kolesnikov、Neil Houlsby 和 Lucas Beyer。扩展视觉变换器。在IEEE/CVF 计算机视觉与模式识别会议论文集，第 12104-12113 页，2022 年。
[97]张浩、李峰、刘世龙、张雷、苏航、朱军、Lionel M Ni 和 Heung-Yeung Shum。Dino：Detr 改进了去噪锚框，可用于端到端对象检测。arXiv 预印本 arXiv:2203.03605，2022年。
[98]Bolei Zhou、赵航、Xavier Puig、Sanja Fidler、Adela Barriuso 和 Antonio Torralba。通过 ade20k 数据集进行场景解析。在IEEE 计算机视觉和模式识别会议论文集，第 633-641 页，2017 年。
[99]朱朝阳、周依依、沉云航、罗根、潘兴嘉、林明宝、陈超、曹柳娟、孙小帅和季蓉蓉。Seqtr：一个简单但通用的视觉接地网络。在欧洲计算机视觉会议上，第 598-615 页。Springer，2022 年。
[100]朱喜洲，苏伟杰，卢乐伟，李斌，王小刚，戴继峰。可变形 detr：用于端到端物体检测的可变形变压器。arXiv 预印本 arXiv:2010.04159，2020年。

附录 AFlorence-2 支持的任务和注释

任务	注释类型	提示输入	输出
标题	文本	图片、文本	文本
详细标题	文本	图片、文本	文本
更详细的标题	文本	图片、文本	文本
区域提案	地区	图片、文本	地区
物体检测	区域文本	图片、文本	文本、区域
密集区域标题	区域文本	图片、文本	文本、区域
短语基础	文本短语区域	图片、文本	文本、区域
指称表达理解	区域文本	图片、文本	文本、区域
开放词汇检测	区域文本	图片、文本	文本、区域
参考细分	区域文本	图片、文本	文本、区域
区域转文本	区域文本	图像、文本、区域	文本
文本检测和识别	区域文本	图片、文本	文本、区域

表 13 :支持用于Florence-2预训练的任务和注释。

附录 B用于通用模型微调的监督数据收集

任务	数据集
标题	可可 []
文字说明	文字大写 []
段落标题	斯坦福段落标题 []
详细标题	本地化叙事 []
检测	可可 []，Object365 ∗ [ ]，打开图片∗ [ ]
短语基础	Flickr30k, Object365 ∗ [ ]，打开图片∗ [ ]
参照表达	RefCOCO-mix (RefCOCO, RefCOCO+, RefCOCOg) [，，]
引用表达分割	RefCOCO-mix (RefCOCO, RefCOCO+, RefCOCOg) [，，]
地区至类别	可可 []，Object365 ∗ [ ]，打开图片∗ [ ]
区域转多边形	可可 []（删除 RefCOCO-mix val 重复数据后）
视觉质量评估	视频语音识别 []、OKVQA [] , AOKVQA []、文本VQA []、ViZWiz VQA []
光学字符识别 (OCR)	FLD-5B OCR 子集（200 万个样本）

表 14：收集数据集，用于对下游任务评估的单一通用模型进行微调。∗表示使用来自FLD-5B的注释，它将原始注释与我们的注释合并。

附录 C模型配置

模型	图像编码器 (DaViT)	编码器-解码器（Transformer）
方面	块	主管/团体	#参数	编码器层	解码层	方面	#参数
佛罗伦萨-2-B	[128, 256, 512, 1024]	[1, 1, 9, 1]	[4, 8, 16, 32]	9000 万	6	6	768	1.4亿
佛罗伦萨-2-L	[256, 512, 1024, 2048]	[1, 1, 9, 1]	[8, 16, 32, 64]	360米	12	12	1024	410米

表 15：不同尺寸的模型配置。

附录 DFLD-5B中的更多注释示例

图8：FLD-5B中的注释示例。

图9：FLD-5B中的注释示例（续）。

附录 E定性评估和可视化结果

E.1详细图片说明 Detailed Image Caption Prompt: Describe with a paragraph what is shown in the image.

The image is a hand-drawn illustration of a glass of gin and tonic. The glass is filled with ice cubes, lime slices, and a slice of lemon. There is a straw sticking out of the top of the glass. The background is a light green color with a grungy texture. On the right side of the image, there is a list of ingredients written in black ink. The text reads "Gin & Tonic" and "2oz gin, 5oz tonic water, 2-4 ice cubes lime slice for garnish".

The image shows the interior of a grocery store with a large variety of fruits and vegetables on display. The store has a high ceiling with green and white striped awnings, and the floor is made of wood. There are rows of wooden crates filled with different types of fruits, including apples, oranges, lemons, limes, and limes. The crates are arranged in neat rows, and there are price tags attached to each crate. In the background, there are shelves stocked with various items such as fruits, vegetables, and other grocery items. The overall atmosphere of the store is bright and colorful, with a sense of freshness and abundance.

The image is a movie poster for the film "Harry Potter and the Sorcerer’s Stone" starring Ron Weasley. The poster features a young boy, Ron Weasley, standing in front of a dark background with a castle-like structure in the background. He is wearing a school uniform with a Gryffindor crest on his jacket and a red tie. He has blonde hair and is looking directly at the camera with a serious expression on his face. The title of the film is written in white text at the top of the poster, with the tagline "20 years of movie magic" written in smaller text below.

The image is a digital illustration of a girl hugging a white cat. The girl is wearing a pink sweater and has long brown hair. She is sitting on a green surface with several potted plants and flowers around her. The plants have green leaves and pink and white flowers. There are also two butterflies fluttering around the scene. The background is white. The overall style of the illustration is cartoon-like and playful.

图10：详细的字幕预测结果。

E.2视觉接地 Visual Grounding Prompt: Locate the phrases in the caption: {caption}

 The image shows a group of five cartoon monsters. On the left side, there is a brown monster1 with horns and a big smile on its face. Next to it, there are two smaller monsters2, one black and one green. The black monster3 has two large horns on its head and is standing in the center of the group. The green monster4 on the right side is a green monster with big eyes and a long antennae. It is standing on its hind legs with its arms stretched out to the sides. In the middle of the image, there appears to be a small blue monster5 with a round head and two antennae on its back. The background is light beige with small green circles scattered around.

 The image shows a cluttered room with a black and white checkered floor1. On the right side of the image, there is a small white cabinet2 with a television3 on top of it. Next to the cabinet, there are several items4 scattered on the floor, including a red blanket5, a wooden stool6, and a pile of trash. On top of the cabinet is a picture frame7 and a hat8. In the center of the room is a white refrigerator9 with a few items on top. The walls10 are painted white and there are a few clothes11 hanging on a rack12 on the left wall. The room appears to be in disarray, with some items strewn about and others scattered around.

 The image shows a kitchen countertop with various kitchen items on it. On the left side of the countertop, there is a microscope with a black body and a white lens1. Next to the microscope, there are two bottles of condiments2 - one with a red label34 and the other with green. On top of the microscope is a yellow banana5, a blue spatula6, a red plate7, and a yellow corn89 on the cob. In the center of the image, there appears to be a frying pan10 with a fried egg11 on it, and on the right side is a white sink12 with a white faucet13. The countertop14 is made of wood and has a gray tile backsplash.

图11：视觉接地预测结果。

Visual Grounding Prompt: Locate the phrases in the caption: {caption}

 The image is a flat lay of various food items arranged on a white marble countertop. On the left side of the image, there is a piece of salmon1. Next to it, there are slices of cheese2, a glass of oil3, coffee beans4, a zucchini5, a bunch of strawberries6, two chicken breasts7, a avocado8 and a few whole spinach leaves9. In the center of the table, there appears to be a pile of ground beef10 on paper11, two eggs12, two orange bell peppers13, and some dark chocolate bars14. The items are arranged in a way that suggests they are being prepared for a meal.

 The image shows a modern kitchen with a large window on the left side. The window1 has a view of trees and greenery outside. On the left side of the image, there is a blue sofa2 with a wooden coffee table in front of it. Above the table, there are three copper pendant lights3 hanging from the ceiling. There is a large island4 with a white countertop. There are two bar stools5 next to the table. In the center of the kitchen, there is a bottle green plants6 on the table. The floor7 is made of light-colored wood and the walls8 are painted in a dark blue color. %

 The image shows a man1 standing in a kitchen with a small dog. The man1 is wearing a plaid shirt2 and jeans3 and is holding a red cup4 in his hand. The dog5 is a light brown color and is standing on a tiled floor6. The kitchen7 has wooden cabinets8 and a countertop9 with various kitchen utensils hanging on the wall. There is a window10 with yellow curtains11 in the background. On the right side of the image, there is a wooden cutting board12 and a wooden stool13.

图12：视觉接地预测结果。（续）

E.3密集区域标题 Dense Region Caption

图13：密集区域字幕预测结果。

E.4开放词汇检测 Open Vocabulary Object Detection Prompt: Locate Five Alive juice box〈and〉 Colgate toothpaste in the image.

Prompt: Locate Chewbacca in the image.

Prompt: Locate giraffe in the image.

Prompt: Locate Mercedes-Benz〈and〉 M2〈and〉 Audi in the image.

Prompt: Locate the objects with category name in the image.

图14：开放词汇对象检测预测结果。

E.5光学字符识别 (OCR) Ocr with region Prompt: What is the text in the image, with regions?

 Easy Stroganoff1 Brown - 1 lb. ground beef in skillet2 Add - 1 can beef broth3 1 can cream of mushroom soup4 Cut in squares & 2dld to above -5 1/ Boz pkg. cream cheese6 Simmer - 20-30 min.7 Serve over hotrice /noodles.8 Vintage. Recipes/Easy-Stroganof9 Charlotte Miller10 Tulsa11

 COFFEE+TEA1 BLENDED2 $1.69/$1.89/$2.093 $3.49/$3.994 Hot Coffee/Tea5 Taro6 Iced Coffee/ Tea7 Mango8 Hot Chocolate9 Honeydew10 $3,49/$ 3.9911 Strawberry12 Mocha14 Thai Iced Tea / Coffee13 Caramel15 $1,99/$2,29/$2:5916 SPECIALTY Brew !!17 Jasmine GreenTea18

 LEONARDO1 DiCAPRIO2 ROBERT3 DE NIRO4 LILY5 GLADSTONE6 A MARTIN SCORSESE PICTURE7 KILLERS8 OF9 FLOWER10 MOON11 SCREENLY ERIC ROTH AND MARTIIN SCORSESE DIRECTED BYMARTIN SORSESE12 ONLY IN THEATRES OCTOBER 2013

图15：具有区域预测结果的 OCR。

E.6区域分割 Region to Segmentation Prompt: What is the polygon mask of region 〈loc_586〉〈loc_294〉〈loc_929〉〈loc_814〉

Prompt: What is the polygon mask of region 〈loc_317〉〈loc_314〉〈loc_893〉〈loc_904〉

Prompt: What is the polygon mask of region 〈loc_541〉〈loc_266〉〈loc_692〉〈loc_627〉

Prompt: What is the polygon mask of region 〈loc_583〉〈loc_66〉〈loc_794〉〈loc_331〉

Prompt: What is the polygon mask of region 〈loc_386〉〈loc_53〉〈loc_759〉〈loc_998〉

Prompt: What is the polygon mask of region 〈loc_102〉〈loc_7〉〈loc_375〉〈loc_648〉

图16：区域到分割的预测结果。

附录 F与 LMM 在详细字幕任务上的比较 Comparison with LMMs on Detailed Image Caption Task

Florence-2: The image is a photograph of a handwritten note from a person named Angelica. The note is written in black ink on a white background. The handwriting is neat and legible, and it appears to be a handwritten letter. The person’s name, Jonathan, is written at the top of the note in a cursive font. Below the name, there is a note that reads, "I’ve got to admit, London’s lights have nothing on our family get together. I miss that, I miss you guys too. Let’s not get too happy about it though I’m keeping my fingers crossed for a trip back stateside. Give a big hug to Amelia for me. Will you?"

GPT-4V11: The image shows a handwritten note addressed to Jonathan. The note conveys a personal message from the sender, Angelica, who admits to missing family gatherings and the feeling of home, contrasting it with the lights of London. Angelica expresses a longing to return stateside and asks Jonathan to give Amelia a big hug on her behalf. The tone of the note is casual and warm, with a sense of fondness and a hint of homesickness. The note is written informally, suggesting a close relationship between the sender and the recipients.

LLaVA22: The image is a handwritten letter on a piece of paper, written by a person named Jonathan. The letter is addressed to someone named Angela, and it appears to be a heartfelt message expressing love and affection. The letter is written in cursive, giving it a personal and intimate touch.

MiniGPT-433: The image is a handwritten letter from an unknown person to someone named Angel. The letter is written in black ink on a piece of white paper. The letter is addressed to Angel and begins with the words, “Dear Angel,”. The letter goes on to describe the writer’s feelings about a recent event or situation, but the details are unclear. The letter ends with the words, “Sincerely, [Writer’s Name].”

图17：与详细字幕任务上的 LMM 进行比较。

Comparison with LMMs on Detailed Image Caption Task

Florence-2: The image is a close-up of a red apple with a green label on it. The label has the text "FUJI 94131 USA" and a barcode on it, indicating that the apple is from the United States. The apple appears to be fresh and has a shiny texture. The background is white, making the apple stand out.

GPT-4V44: The image displays a Fuji apple with a sticker indicating it is organic, along with the identifying number 94131, and specifying that it is from the USA. The apple has a reddish-pink skin with some yellow and green coloration, which is characteristic of Fuji apples. The apple is placed on a white background, which appears to be a textured fabric.

LLaVA55: The image features a large, fresh, and ripe red apple sitting on a white surface. The apple has a sticker on it, which is likely a barcode or a label providing information about the product. The apple is prominently displayed, taking up a significant portion of the image.

MiniGPT-466: The image shows a red apple with a label on it that reads “Organic” in white letters. The apple is sitting on a white surface.

图18：与详细标题任务中的 LMM 进行比较（续）。

Comparison with LMMs on Detailed Image Caption Task

Florence-2: The image shows a highway with multiple lanes. There are several vehicles on the road, including a black van and a red truck. On the left side of the image, there is a white semi-truck with the word "Martini" written on it. Above the highway, there are several bridges with cars and trucks on them. The sky is blue and there are trees and grass on the right side. In the center of the highway is a green sign that reads "Exit 94, Chamblee Tucker Rd, Mercer Univ."

GPT-4V77: The image shows a highway scene with several lanes of traffic. There are overpasses with cars and trucks traveling over them, and the highway itself appears to be busy with vehicles, including a prominent black van in the foreground. A road sign indicates that Exit 94 for Chamblee-Tucker Rd and Mercer University is 1 1/4 miles ahead. The presence of the sign suggests that drivers in the right lanes will soon have the opportunity to take the exit to reach these destinations. The infrastructure suggests a well-traveled interstate or highway system, possibly in an urban or suburban area given the overpass complexity and road signage for local roads and institutions. The vehicles on the road are diverse, indicating a mix of commercial and personal transport.

LLaVA88: The image depicts a busy highway with multiple lanes of traffic, including cars and trucks. There is a large truck driving on the highway, and several other trucks are also visible in the scene. The highway is filled with cars, and there is a traffic sign above the lanes, indicating the direction to Tucker Road. The scene captures the hustle and bustle of a typical day on a highway filled with vehicles.

MiniGPT-499: The image shows a highway with multiple lanes of traffic moving in both directions. There are several large bridges spanning the highway, and in the distance, there are mountains and a blue sky. There are also several large trucks and cars on the highway, including a black van in the center of the image. The road surface is smooth and well-maintained.

图19：与详细标题任务中的 LMM 进行比较（续）。

Comparison with LMMs on Detailed Image Caption Task

Florence-2: The image shows a kitchen countertop with a laptop on it. The laptop is open and the screen is displaying a blue abstract design. On the countertop, there are various kitchen utensils hanging on a metal rack. The rack is attached to the wall above the sink and has a variety of kitchen tools hanging on it, including a grater, a spatula, a ladle, a spoon, and a whisk. There are also a few other kitchen items scattered around the counter. The countertop is made of wood and there is a wire rack at the bottom of the image.

GPT-4V1010: The image shows a modern kitchen setting where culinary tools are organized neatly on a rack against the wall. These tools include a variety of utensils such as a grater, tongs, a whisk, ladles, and spatulas. On the counter, there is an open laptop with a vibrant blue wallpaper on the screen, which suggests that someone might be using it for a recipe or as entertainment while cooking. In front of the laptop, there appears to be a cutting board with some chopped ingredients and a knife, indicating that food preparation is underway or has recently taken place. There are also some dried chilies and a plastic container that might contain other ingredients or spices, further suggesting cooking activities. The counter also has an electrical outlet and some covered sockets, and below the main counter, there are storage bins that likely hold additional kitchen supplies. The environment looks lived-in and practical, with a mix of technology and traditional cooking tools.

LLaVA1111: The image features a wooden kitchen counter with a laptop computer sitting on top of it. The laptop is open and displaying a picture of a cake. The counter is also cluttered with various kitchen utensils, including multiple spoons and knives, as well as a bowl. The scene suggests that someone might be using the laptop for cooking or baking purposes, possibly following a recipe or watching a tutorial.

MiniGPT-41212: The image shows a kitchen counter with a laptop computer on it, a set of cooking utensils hanging from a rack above it, and a knife block on the counter. The laptop appears to be open, with a blue screen displaying an image of a kitchen. The utensils hanging from the rack include a spatula, a ladle, a whisk, and a cutting board. The knife block contains several knives, including a chef’s knife, a paring knife, and a bread knife.

图20：与详细标题任务中的 LMM 进行比较（续）。

附录G与 Kosmos-2 的详细字幕和基础任务对比 Comparison on detailed caption and grounding tasks.

The image features a home office with two white desks, one on the left and the other on the right. The desks are connected by a white metal frame, creating a functional and stylish workspace. A laptop is placed on the desk on the far left, and a keyboard is visible on the other desk. Two chairs are placed in front of the desks, one closer to the left desk and the second one on its right side.(a) Result from Kosmos-2.

 The image shows a modern home office setup with two white desks1 and two black chairs2. The desks3 are arranged in a corner of the room with a large window on the left side. On the right side of the desk, there is a computer monitor4, a keyboard5, a mouse, a printer6, and a laptop7. Above the computer monitor and keyboard, there are two framed pictures8 hanging on the wall. The walls9 are painted in a light green color and the floor10 is made of light-colored wood. The floor11 is covered with a beige area rug with a geometric pattern. The overall style of the space is minimal and contemporary.

(b) Result from Florence-2.

图21：与 Kosmos-2 的系统比较 []在详细字幕和基础任务上的表现。模型生成详细字幕和基础结果。Kosmos-2 的结果来自。

Comparison on detailed caption and grounding tasks.

The image features a white dining table with a variety of food items on it. On the table, there is a bowl of bread, a bowl with a salad, and a plate with a side of yogurt. In addition to the food, there are two cups placed on the table. One cup is located near the left side of the table and the other cup is situated on the right side. The table is set with a fork and a knife, ready for a meal.

Florence-2：推进多种视觉任务的统一表征 肖斌† 吴海平* 徐伟建* 胡西阳戴厚东 陆玉茂 Michael Zeng Ce Liu ‡ 陆远‡†项目领导 ∗同等贡献 ‡定向领导 Azure AI，微软

抽象的

1介绍

2重新思考视觉模型预训练

2.1综合多任务学习

3模型

任务制定。

视觉编码器。

多模态编码器解码器。

优化目标。

4数据引擎

4.1图片集

4.2数据注释

使用专业模型进行初步注释。

数据过滤和增强。

迭代数据细化。

4.3注释特定的变体

文本。

区域-文本对。

文本-​​短语-区域三元组。

5数据集

5.1概述

5.2数据分析

注释统计。

语义覆盖。

空间覆盖。

6实验

6.1设置

6.2跨任务的零样本评估

6.3具有公共监督数据的通才模型

设计简单，性能强大。

以更少的参数实现有竞争力的性能。

跨任务级别的适应性概括。

6.4下游任务微调

物体检测和分割。

语义分割。

6.5消融研究

多任务转移。

模型缩放。

数据缩放。

训练设置。

7相关作品

7.1视觉语言基础模型

7.2视觉数据集

全面的注解。

可扩展的注释。

8结论

致谢。

参考

附录 AFlorence-2 支持的任务和注释

附录 B用于通用模型微调的监督数据收集

附录 C模型配置

附录 DFLD-5B中的更多注释示例

附录 E定性评估和可视化结果

E.1详细图片说明 Detailed Image Caption Prompt: Describe with a paragraph what is shown in the image.

E.2视觉接地 Visual Grounding Prompt: Locate the phrases in the caption: {caption}

E.3密集区域标题 Dense Region Caption

E.4开放词汇检测 Open Vocabulary Object Detection Prompt: Locate Five Alive juice box〈and〉 Colgate toothpaste in the image.

E.5光学字符识别 (OCR) Ocr with region Prompt: What is the text in the image, with regions?

E.6区域分割 Region to Segmentation Prompt: What is the polygon mask of region 〈loc_586〉〈loc_294〉〈loc_929〉〈loc_814〉

附录 F与 LMM 在详细字幕任务上的比较 Comparison with LMMs on Detailed Image Caption Task

附录G与 Kosmos-2 的详细字幕和基础任务对比 Comparison on detailed caption and grounding tasks.

Read more

黄仁勋公开发文：传统软件开发模式终结，参与AI不必非得拥有计算机博士学位

转型AI工程师实战指南

个人开发者“接私活”降维打击：我是如何用 Nuct + Cursor 快速交付项目的 🚀

🚀 Expo React Native 微信支付集成全攻略

Florence-2：推进多种视觉任务的统一表征肖斌† 吴海平* 徐伟建* 胡西阳戴厚东
陆玉茂 Michael Zeng Ce Liu ‡ 陆远‡
†项目领导 ∗同等贡献 ‡定向领导
Azure AI，微软

文本-短语-区域三元组。