不同于语言大模型只对文本进行处理,多模态大模型将文本、语音、图像、视频等多模态数据联合起来进行学习。多模态大模型融合了多种感知途径与表达形态,能够同时处理和理解来自不同感知通道(例如视觉、听觉、语言和触觉等)的信息,并以多模态的方式表达输出。
1.1 多模态大模型的技术体系
现有的多模态大模型主要有面向理解任务的、面向生成任务的、兼顾理解和生成的、知识增强的多模态大模型。
1.1.1 面向理解任务的多模态大模型
面向理解任务的多模态大模型,其核心结构通常是基于 Transformer 的编码器。按照模型结构的不同,面向理解任务的多模态大模型又可再分为单流和多流两种结构。单流结构是指不同模态的特征在拼接后由一个共享的 Transformer 网络进行处理;而多流结构中,不同模态则分别由 Transformer 网络进行编码处理,这些网络之间存在有一些特征上的交互融合机制。
多流结构的一个典型代表是图文理解模型 ViLBERT,它采用了一种双流 Transformer 的结构,首先将文本和图像数据分别输入两个独立的 Transformer 编码器,接着使用互注意力 Transformer(Co-Attention Transformer)层将文本和图像特征进行融合,最后所得到文本 - 图像特征可以被应用到视觉问答、图像描述生成等不同的多模态的任务中。
多流结构的另一个代表是 OpenAI 公司的 CLIP 模型,它采用两个独立的编码网络对图像和文本进行特征抽取,并通过对比学习将两者的特征嵌入到共享的语义空间中。CLIP 基于 4 亿图文对进行训练,可以从自然语言监督中有效地学习视觉概念,从而获得泛化性能极强的零样本(zero-shot)分类能力。
另一个与 CLIP 类型的代表性方法 ALIGN,使用对比损失训练了一个简单的双编码器模型,利用包含超过 10 亿个噪声图像 - 文本对的数据集来扩展视觉和视觉语言表征学习。CLIP 是个图文双流结构,而 VATT 则是针对视频 - 文本 - 音频数据的多流模型。
与 CLIP 类似,VATT 将每个模态线性投影为特征向量,然后将其分别送到 Transformer 编码器中,并将编码后的特征在语义分层的不同粒度空间中通过对比学习来训练模型。
单流结构的一个典型代表是 VL-BERT,它将图像的描述文本和关键物体的区域特征拼接后作为 BERT 网络的输入,通过掩码掉部分文本输入和图像输入并预测所缺失的信息来进行模型训练。
此外,另一代表性方法 UNITER,则采用了一种多任务的多模态预训练方法,相对于其它方法,该模型增加了单词与图像区域的匹配模块,来更进一步建立图像与文本的细粒度关联。
在视频领域,单流结构的代表性方法有 VideoBERT 和 ActBERT,其中 VideoBERT 是一个视频 - 语言模型,它融合了文本和视频作为 BERT 网络的输入;而 ActBERT 采用了一种全局 - 局部关系的建模方法,输入不止包括文本和视频的全局信息,还利用了视频帧中的局部信息来加强对于视频内容的理解。
现有的面向理解任务的多模态大模型大多都以上面两类结构为基础,此外,也有不少方法在预训练任务上进行研究,引入更多的预训练任务或设计统一的架构去训练所有的任务等。例如,其中一个典型方法 Florence,它着重于如何使模型适应各种下游任务,并设计了一个由多模态大模型和适应模型组成的工作流。
具体对于任务适应,该模型使用动态头部适配器将学习到的视觉特征表示从场景扩展到对象,采用 CoSwin 适配器来学习视频表示,并使用 METER 适配器将模型应用到依赖细粒度视觉 - 语言表示的视觉语言任务。
1.1.2 面向生成任务的多模态大模型
面向生成任务的多模态大模型能够实现文本、图片、视频、音频、3D、分子结构等多种模态内容的生成应用。
目前常用的方法主要是基于序列生成模型和扩散模型(diffusion models)。在序列生成模型中,DALL-E 是个典型代表。它是由 OpenAI 发布的一个基于 4 亿图文对训练的图像生成模型,通过采用 VQVAE 图像离散自编码器和 GPT 组合的结构,在以文生图任务上取得了突破性的生成质量和泛化能力,被称作图像版 GPT。
另一典型的图像生成模型是北京智源研究院的 CogView 模型,它具有与 DALL-E 类似的结构,但是面向中文环境的文本到图像生成,并进一步探索了多模态生成模型在下游任务上精调后的泛化能力。
CogView 在基于文本控制的样式学习、服装设计和图像超分等任务上均取得出色的效果。在文本生成方向上,采用序列生成模型是最主流的方案,例如,典型方法 GIT 是一个视觉到文本的多模态大模型,统一了图像/视频的描述和问答等视觉语言任务,它包含有一个图像编码器和一个文本解码器,其文本解码器在视觉编码的基础上,以自回归的方式来生成文本。
扩散模型的工作原理,是通过连续添加高斯噪声来破坏训练数据,然后通过反转这个噪声过程,来学习恢复数据。扩散模型的一个代表性方法 LDM,它先压缩图像的像素信息来获取图像对应的隐特征表达,再采用扩散模型来建模图像隐特征分布。
另一典型扩散模型 Stable Diffusion,它拓展 LDM 至开放领域的文本至图像生成,是当前开源模型的代表方法。除了开源模型之外,闭源的扩散模型中代表性方法有 OpenAI 的 DALL-E2 与谷歌的 Imagen。
其中,DALL-E2 首先训练一个扩散解码器来反转 CLIP 图像编码器,然后训练一个独立的映射模型将 CLIP 模型的文本特征映射到图像特征空间,从而实现以文生图的过程,并极大提升了生成图像与输入文本的匹配程度。
而 Imagen 首先将文本进行编码表征,之后使用扩散模型将表征映射成为 64x64 像素的低分辨率的图像,然后会通过两个超分辨率扩散模型来逐渐提高分辨率到 1024x1024 像素。


