概述
当前,新一代人工智能已成为世界各国的竞争焦点,抢占未来技术战略制高点意义重大。由于持续开放的动态环境、各行业领域不断攀升的系统复杂度以及快速扩大的数据规模总量,智能技术应用需求不断增长,智能形态和认知水平持续深入发展。从互联网到移动互联网再到物联网、星联网时代,计算硬件体积不断压缩、功耗与成本持续降低,新一代人工智能已经成为共性支撑技术,推动经济、社会、民生、国家安全、制造等领域进行数字化和智能化转型。另一方面,伴随互联网/行业大数据、并行计算能力、机器学习算法的突破和人类智能本质认知探索的深入,新一代人工智能发展还在继续加速。
随着生成式预训练 (Generative Pre-Train, GPT)、基于 Transformer 的双向编码器表达 (Bidirectional Encoder Representation from Transformers, BERT)、GPT-3、DALL-E、SwitchTransformer、华为盘古、悟道、ERINE、M6 等大规模预训练模型快速涌现,人工智能研究领域正在经历一场有监督学习向无监督学习条件下'大数据 + 大模型'的大规模预训练范式转变,即基于海量广域数据训练并且经过微调学习自动适应应用于广泛下游任务的模型。大规模预训练模型起源于自监督的语言模型,自监督的深度语言神经网络模型最初只在自然语言处理领域展开研究,直到 2018 年 BERT 模型在 11 项 NLP 任务基准上都打破了纪录,取得了巨大成功,性能远超第二名。2019 年以后,基于自监督学习的语言模型已成为基础性方法,这与 2012 年基于卷积神经网络 AlexNet 在 ImageNet2012 上的突破很相似,标志着一个大模型时代的开始。当下,自然语言处理 (Natural Language Processing, NLP) 领域几乎所有的目前最先进的模型 (State-Of-The-Art model, SOTA) 都是基于 Transformer 的大模型架构进化而来的,而这种趋势也正在向图像、视频、语音等不同模态、不同领域扩散蔓延。
人工智能从单模态有监督迈向多模态自监督学习时代。目前网络数据中 90% 以上是图像与视频,更多知识蕴含其中。人类的信息获取、环境感知、知识学习与表达,都是采用跨模态的输入输出方式。如何设计计算机模型并使其具有强大的无监督学习与通用知识迁移能力,使不同领域任务在统一框架下实现基于低标注代价的性能提升?一种可行的路径是通过跨模态语义关联,提升多模态融合理解以及跨模态转换与生成性能。
当前,单模态预训练模型在数据规模和模型性能方面已经遇到瓶颈,而且单模型只涵盖了互联网数据中的单一模态信息,更丰富的包含文本、语音、图像、视频等多种模态数据的信息并未被充分利用与学习。此外,人类的信息获取、环境感知、知识学习与表达,都是通过多模态信息方式进行执行。
因此,为实现更加通用的人工智能模型,预训练模型必然由单模态往多模态方向发展,需将文本、语音、图像、视频等多模态内容联合起来进行学习,并专注多模态内容之间的关联特性与跨模态转换问题。这样一方面可以引入多维度的信息,另一方面可以利用互联网上大量的多模态数据,使得模型能够学习更通用化的特征表示,以此增强模型的通用性和泛化能力。
1.1 多模态基础大模型简介
多模态预训练大模型架构与 GPT 和 BERT 类似,也是基于自注意力机制 Transformer 深度学习模型,其最大特点是模型的输入由单一模态的文本拓展到文本、语音、图像、视频等多个模态数据同时作为输入。多模态大模型主要指输入包括两种及以上模态的、参数量大于亿级的深度学习网络模型。
单模态大模型主要是指模型输入只包括一种模态(如只包括语音、图像或文本)的、大规模参数量的深度神经网络模型。一个关键的科学问题是如何设计神经网络模型并使其具有强大的无监督学习与通用知识迁移能力,使不同领域任务在统一框架下实现基于低标注代价的性能提升。一种可行的路径是通过跨模态语义关联,提升多模态融合理解以及跨模态转换与生成性能。
多模态预训练模型通常采用无监督学习的方法进行大规模训练,预训练数据来自互联网上大量的多模态数据,例如网页、视频等,无需人工标注,从而具有良好的拓展性和通用性。在不微调或采用少量数据微调的情况下,多模态预训练模型就可直接用于解决不同类型的多模态数据处理问题,例如为视频自动配上字幕、声音,输入声音和文本自动生成图像或视频片段等。多模态数据相比单模态数据更具有研究意义,但同时也存在更多的困难与挑战。
1.2 核心技术原理
多模态大模型的核心在于如何将不同来源的数据映射到统一的特征空间。常见的技术路线包括对比学习(Contrastive Learning),如 CLIP 模型通过最大化图文对的相似度来对齐特征;以及生成式建模,利用 Diffusion Model 或 Autoregressive 架构进行跨模态生成。Transformer 架构中的 Self-Attention 机制允许模型在处理序列数据时捕捉长距离依赖,而在多模态场景下,Cross-Attention 机制则用于建立不同模态间的交互关系。例如,在视觉 - 语言任务中,图像特征可以通过 Vision Transformer (ViT) 提取,随后与文本 Token 进行混合编码,从而实现端到端的理解与生成。
1.3 面临的挑战与解决方案
具体而言,多模态预训练模型的研究面临以下挑战:
(1) 模型构建不完善
现有的多模态预训练模型往往忽略了视觉内容的语义编码,对视觉内容常使用离线训练的目标检测模型进行编码,然后进行'图像 - 文本'的匹配,而'目标 - 语义'才是实际任务中真正的需求所在。另一方面,现有模型的训练方式和优化机制沿用了语言预训练模型的范式,相对于 NLP 任务中的自由文本,多模态对齐数据的获取难度大,面临着数据噪声大、不同模态缺失等挑战。为此,需围绕基于全注意力机制的跨模态关联建模,对 Transformer 模型在视觉中的应用进行改进;充分发挥多模态预训练模型对不同模态数据间关联互补特性的有效建模能力,以及模态信息缺失情形下的鲁棒分析能力;设计与多模态预训练模型网络结构尽可能兼容的多任务学习机制,优化模型参数的学习机制。例如,引入掩码建模(Masked Modeling)策略,让模型在部分模态缺失的情况下仍能推断完整信息。


