图像自动文本化框架:提升多模态大模型描述质量与准确性
引言
在当今多模态大模型(Multimodal Large Language Models, MLLMs)的快速发展浪潮中,模型的性能上限往往与其训练数据的质量紧密相关。业界普遍认为,'数据赋予了模型的绝大多数能力'。在这一背景下,图像 - 文本数据集扮演着至关重要的角色,它是支撑图像理解、文本生成以及图像检索等核心任务的基础设施。
然而,现有的主流图像描述数据集主要依赖于网络抓取和人工标注两种方式。网络抓取的数据往往伴随着大量的噪声和不一致性,而人工标注虽然质量较高,但成本极其昂贵,且难以大规模扩展。这导致了现有数据集普遍存在质量参差不齐、细节缺失、描述噪音多等问题。尽管人类专家可以为图像提供详尽的描述,但高昂的人力成本限制了数据集的规模和可行性。因此,迫切需要一种高效、可扩展的方法,能够自动生成准确且详细的图像描述,以解决数据瓶颈问题。
研究背景与挑战
多模态大语言模型旨在让机器同时理解和处理视觉与语言信息。为了实现这一目标,高质量的图文配对数据是不可或缺的。传统的图像描述生成方法通常直接利用多模态模型进行端到端的训练,但这容易受到训练数据中固有偏差的影响。如果训练数据本身包含幻觉或不准确的描述,模型在推理时也会继承这些错误。
此外,现有的自动化数据生成方案往往缺乏对图像细节的精细捕捉。简单的多模态模型生成的描述可能只关注主体物体,忽略了背景、空间关系、深度信息等关键细节。这种'粗粒度'的理解限制了下游任务的表现,特别是在需要高精度理解的场景下。
针对上述挑战,来自香港科技大学、武汉大学、浙江大学及 UIUC 的研究者联合提出了一种创新的自动化框架——Image-Textualization(IT)。该框架通过整合多模态大语言模型(MLLMs)和多种视觉专家模型的协作,将图片信息进行结构化文本化,最后利用拥有强大推理能力的纯文本大语言模型将这些文本化的信息转化为高质量的图像描述。
Image Textualization 方法详解
IT 框架的设计核心在于分阶段处理,充分利用不同模型的优势。整个流程包括三个阶段:
1. 粗粒度的图片文本化(Holistic Textualization)
第一阶段的目标是为图像建立一个基本的语义骨架。我们首先利用多模态大语言模型对图片生成参考描述。尽管这些初始描述可能存在细节缺失或轻微的幻觉,但它们为图像的视觉信息和语言表达提供了基本结构。
这里的视觉结构主要体现在参考描述中往往会包含一些大的、核心的物体。这些核心物体可以作为后续细节添加的'锚点',使得最后的文本化重述(Textualized Recaptioning)能够更好地围绕这些实体展开。从语言表达的角度来看,多模态大模型内部包含的纯文本大语言模型赋予了其较强的语言能力。这使得生成的参考描述在语言组织上具有良好的逻辑性,例如先概述图片内容,再展开细节,最后总结。这种描述风格较为偏向人类的偏好,也为后续的精细化加工提供了一个高质量的语言模板。
2. 视觉细节文本化(Visual Detail Textualization)
第二阶段专注于从图片和文本两端提取并验证细节信息,这是提升描述准确性的关键步骤。
文本端幻觉检测: 由于上一阶段生成的参考描述可能含有幻觉,我们需要进行清洗。首先利用 LLM 去抓取参考描述中含有的实体,再利用开集检测器(Open-vocabulary Detector)在图片里对这些实体进行匹配。如果没有被检测出来,则将该实体判断为幻觉。我们将检测出来的幻觉信息也进行了文本化标记,以便在最后阶段进行删除或修正。
视觉端细节提取: 在视觉端,我们利用在高分辨率图片上训练出来的各个任务上的视觉专家模型来提取图像中的细节信息。仅仅使用物体的 caption 不足以表达丰富的视觉细节。我们首先利用提取这些物体的 bounding box(边界框)来把物体的左右位置关系用文本方式体现出来。
除了左右信息,物体之间还存在前后关系(深度信息)。对此,我们首先利用分割模型(Segmentation Model)将这些物体的 mask 提取出来,再将原本的图片转化为深度图。通过计算深度图中特定物体 mask 对应的深度分数,我们可以将深度信息由文本形式体现出来。至此,我们能够利用文本还原出图片中各个物体的大小、左右位置、前后关系等细节信息,极大地丰富了描述的维度。
3. 文本化重述(Textualized Recaptioning)
第三阶段是最终的合成步骤。结合前两个阶段的图片信息文本化结果,加上我们通过精心设计的改写 prompt,纯文本的大语言模型能够很好地通过纯文本还原出图片的信息。凭借强大的理解和推理能力,模型最终生成详细且准确的图像描述。这一步骤实际上是将分散的视觉线索和初步的语义理解融合成流畅的自然语言。
全面评估与实验验证
为了验证 IT 框架的有效性,研究者构建了三个评估基准,分别是 DID-Bench(详细图像描述基准)、D2I-Bench(描述到图像基准)和 LIN-Bench(语言基准),并进行了广泛的实验。


