多模态技术综述：从视觉表征到多模态大模型

为了表述简单，我们将'图文多模态'表述为'多模态'。本文假设读者已经对视觉表征和多模态融合有一定入门背景，希望通过一篇文章回顾将过去几年的经典工作。

一、总览

由于是讲'图文多模态'，还是要从'图'和'文'的表征方法讲起，然后讲清楚图文表征的融合方法。对于文本模态的表征发展，我们在相关文献中有过一轮的梳理，因此本文主要关注两件事情：

视觉表征：分为两个部分问题，一是如何合理建模视觉输入特征，二是如何通过预训练手段进行充分学习表征，这两点是基于视觉完成具体算法任务的基础；

视觉与自然语言的对齐（Visual Language Alignment）或融合：目的是将视觉和自然语言建模到同一表征空间并进行融合，实现自然语言和视觉语义的互通，这点同样离不开预训练这一过程。模态对齐是处理多模态问题的基础，也是现在流行的多模态大模型技术前提。

对于视觉表征，从发展上可以分为卷积神经网络（CNN）和 Vision Transformer（ViT）两大脉络，二者分别都有各自的表征、预训练以及多模态对齐的发展过程。而对于 ViT 线，另有多模态大模型如火如荼的发展，可谓日新月异。

因此，本文的行文思路也就非常简单。第一部分介绍以 CNN 为基础的视觉表征和预训练手段，以及在此基础上的多模态对齐的方法。由于预训练已经成为 AI 技术取得效果的标配，多模态对齐部分的内容也是以多模态预训练技术承载；第二部分从 ViT 技术出发，分别介绍 ViT 视觉表征的预训练探索工作、多模态对齐的预训练工作以及近两年火热的研究方向多模态大模型。

图 1

由于多年间的优秀工作太多，不胜枚举，本文仅挑选笔者从业过程中印象较深，且有标志性特点的工作为代表。优秀的工作不止于本文，不过还是期望通过有限的工作，将近几年的图文多模态相关技术串连起来，方便读者按图索骥进行更深入的学习。下面开始正式的内容。

二、CNN：视觉理解的一代先驱

2.1 卷积视觉表征模型和预训练

对视觉信息的表征，简单来说是将图像信息转化成深度学习输入所需的特征向量或向量序列，如图 2。深度学习时代，卷积神经网络（CNN）凭借其局部区域连接、权重共享以及位移不变性等特点，天然的符合了图像信息的建模归纳假设，成为早期最适合视觉表征的模型。具体的，卷积神经网络应用视觉表征的模型很多，我们简单从 LeNet-5、AlexNet、VGG 和 ResNet 等模型的演进一窥其在关键要素。

图 2

2.1.1 卷积视觉表征：从 LeNet 到 ResNet

LeNet-5 早期在数字识别中取得了成功的应用，网络结构是 [CONV-POOL-CONV-POOL-FC-FC]。卷积层使用 55 的卷积核，步长为 1；池化层使用 22 的区域，步长为 2；后面是全连接层；AlexNet 相比 LeNet-5 做了更多层数的堆叠，网络参数进行了相应的调整，并在 ImageNet 大赛 2012 夺得冠军；相应 VGG 网络使用更小的卷积核，同时相比 AlexNet 进一步提升了网络层数。

随着研究的深入，神经网络的层数也出现了爆发式地增长，由此也不可避免的带来梯度消失和梯度爆炸的问题，使得模型训练的困难度也随之提升。一种解决方法是将神经网络某些层跳过下一层神经元的连接，隔层相连，弱化每层之间的强联系。这种神经网络被称为 Residual Network(ResNet) 残差网络，网络结构的原理是将卷积层的堆叠，替换成跨层连接的模块，如图 3 所示。

图 3