深度多模态数据融合综述

综述由AI生成综述了深度多模态数据融合技术，对比了传统与深度学习时代的融合差异。提出基于编码器 - 解码器、注意力机制、图神经网络、生成式网络及约束方法的五类新分类法。涵盖视觉 + 语言、视觉 + 传感器等广泛模态组合，分析其在目标检测、问答等任务中的应用，并探讨当前挑战与未来方向。

SparkGeek发布于 2025/2/6更新于 2026/5/2017 浏览

深度多模态数据融合综述

引言

多模态人工智能（Multimodal AI）通常涉及多种类型的数据，例如图像、文本或来自不同传感器的数据。其核心流程包括特征工程（如特征提取、组合/融合）以及决策过程（如多数投票）。随着架构变得越来越复杂，多模态神经网络可以将特征提取、特征融合和决策过程整合到一个单一的模型中，这些过程之间的界限日益模糊。

基于融合在何处发生的传统多模态数据融合分类（例如早期/后期融合）已经不再适用于现代深度学习时代。因此，本文基于当前主流技术提出了一种新的细粒度分类，将当前的前沿（SOTA）模型分为五类：编码器 - 解码器方法、注意力机制方法、图神经网络方法、生成式神经网络方法以及其他基于约束的方法。

现有的大多数多模态数据融合综述仅关注特定任务和特定模态组合。不同于这些综述的是，本综述涵盖了更广泛的模态组合，包括视觉 + 语言（例如视频、文本）、视觉 + 传感器（例如图像、LiDAR）等，以及它们对应的任务（例如视频描述、目标检测）。此外，我们还提供了这些方法之间的比较，以及该领域的挑战和未来发展方向。

多模态数据的背景与必要性

什么是多模态？

在现实中，当我们体验世界时，我们会看到物体，听到声音，感受到质感，闻到气味，尝到味道。世界通过不同媒介（如视觉、声音和质感）传达信息。我们的感知器官如眼睛和耳朵帮助我们捕获这些信息。然后，我们的大脑能够融合来自不同感官的信息，以形成预测或决策。从每个源/媒介获得的信息可以被视为一种模态。当模态的数量超过一个时，我们称之为多模态。

然而，与眼睛和耳朵不同，机器主要依赖于传感器，例如 RGB 摄像头、麦克风或其他类型的传感器。每个传感器都可以将观测到的对象/活动映射到其自身的维度。换句话说，观测到的对象/活动可以投射到每个传感器的维度中。然后，机器或机器人可以收集来自每个传感器的数据，并基于这些数据做出预测或决策。

在工业中，有许多应用利用了多模态。例如，自 2020 年代以来，自动驾驶汽车成为热门话题，是一个典型的依赖多模态的应用。这样的系统需要来自不同传感器的多种数据，如 LiDAR 传感器、雷达传感器、摄像头和 GPS。模型将融合这些数据以进行实时预测。在医学领域，越来越多的应用依赖于医学成像与电子健康记录的融合，使模型能够在临床背景下分析成像结果，如 CT 和 MRI 的融合。

为什么我们需要多模态？

一般而言，多模态数据指的是从不同传感器收集的数据，例如癌症诊断中的 CT 图像、MRI 图像和血液检测数据，自动驾驶系统中的 RGB 数据和 LiDAR 数据。对于同一个观察对象或活动，不同模态的数据可以有不同的表达方式和视角。尽管这些数据的特性可能独立且不同，它们在语义上往往重叠。这种现象称为信息冗余。

此外，不同模态的信息可以具有互补性。人类可以无意识地融合多模态数据，获取知识并做出预测。从多模态中提取的互补和冗余信息可以帮助人类形成对世界的全面理解。例如，当一个孩子在打鼓时，即使我们看不到鼓，仍然能够通过声音识别出正在敲击的鼓。在这个过程中，我们无意识地融合了视觉和听觉数据，并提取了它们的互补信息，以做出正确的预测。如果只有一种模态可用，例如鼓对象不在视线范围内的视觉模态，我们只能看出一个孩子正在挥动两根鼓棒。仅有声音时，我们只能判断出有鼓被敲击，而无法知道是谁在敲鼓。因此，基于单一模态的独立解释仅呈现观察活动的部分信息，而基于多模态的解释可以传达更完整的'全貌'，比单模态模型更稳健和可靠。

例如，自动驾驶汽车包含多种传感器，如 RGB 摄像头和 LiDAR 传感器，在能见度接近零的极端天气条件下（如浓雾或暴雨）需要检测路上的物体。多模态模型在这种情况下仍然能够检测到物体，而仅依赖视觉的模型则可能无法做到。然而，机器要理解并利用多模态数据的互补特性来提高预测/分类准确性仍然是非常困难的。

多模态数据融合的演进

传统机器学习阶段

20 世纪 90 年代，随着传统机器学习（ML）的蓬勃发展，基于 ML 的多模态问题解决模型也逐渐兴起。然而，当时的大多数研究集中在特征工程上，例如如何为每种模态获得更好的表示。那时，提出了许多模态特定的手工设计的特征提取器，这些提取器高度依赖于特定任务和对应数据的先验知识。由于这些特征提取器独立工作，难以捕捉到多模态数据的互补性和冗余性。因此，在特征传递给 ML 模型之前，这种特征工程过程不可避免地会导致信息的丢失，从而对传统 ML 模型的性能产生负面影响。

深度学习阶段

自 2010 年以来，多模态数据融合全面进入了深度学习阶段。基于深度学习的多模态数据融合方法在各类应用中展现出卓越的成果。相比传统的 ML 方法，如果训练数据量足够大，基于深度神经网络（DNN）的方法在表示学习和模态融合方面表现出色。此外，DNN 能够自动执行特征工程，这意味着可以从数据中自动学习分层表示，而无需手工设计或手工制作模态特定的特征。

传统上，多模态数据融合的方法依据传统融合分类法分为四类，包括早期融合、中期融合、后期融合和混合融合。然而，随着可用的多模态数据量的大幅增加，对更先进的融合方法的需求也空前增长。这种传统的融合分类法仅能为多模态数据融合提供基本指导。为了从多模态数据中提取更丰富的表示，DNN 的架构变得越来越复杂，不再单独、独立地从每种模态中提取特征。相反，表示学习、模态融合和决策过程在大多数情况下是交织在一起的。

因此，深度学习的发展显著重塑了多模态数据融合的格局，揭示了传统融合方法分类的不充分性。深度学习架构的固有复杂性往往将表示学习、模态融合和决策过程交织在一起，打破了过去的简化分类。此外，以注意力机制为代表的从显式到更隐式的融合方式挑战了传统融合策略的静态特性。图神经网络（GNN）和生成神经网络（GenNN）等技术引入了处理和融合数据的新方法，这些方法并不符合早期到后期融合的框架。

深度多模态数据融合综述

深度多模态数据融合综述