跳到主要内容 多模态大模型(MM-LLM)架构与训练综述 | 极客日志
Python AI 算法
多模态大模型(MM-LLM)架构与训练综述 本文系统梳理了多模态大模型(MM-LLM)的架构设计与训练流程。文章详细介绍了模型的五部分结构,包括模态编码器、输入投影器、语言模型骨干、输出投影器和模态生成器,并阐述了各组件的实现选择。训练流程涵盖多模态预训练与指令微调两个阶段,重点分析了监督微调与 RLHF 的作用。文中对比了 26 种主流 MM-LLM 模型,从架构与数据集规模维度进行分析,并总结了其在视觉语言评测集上的表现。最后,文章展望了构建更强模型、设计挑战性评估集、轻量化部署、实体智能及持续性指令调整等五大未来发展方向。
1951018925 发布于 2025/2/7 0 浏览
多模态大模型入门指南
1. 引言
1.1 多模态 LLMs 的现状
最近,多模态大模型取得重大进展。随着数据集和模型的规模不断扩大,传统的 MM 模型带来了巨大的计算量,尤其是从头开始训练的话。研究人员意识到 MM 的研究重点工作在各个模态的连接上,所以一个合理的方法是利用好现成的训练好的单模态基础模型,尤其是 LLM。这样可以减少多模态训练的费用,提升训练效率。
MM-LLM 利用 LLM 为各种 MM 任务提供认知能力。LLM 具有良好的语言生成、zero-shot 和 ICL(In-Context Learning)的能力。其他模态的基础模型则提供了高质量的表征。考虑到不同模态的模型是分开训练的,如何将不同模态连接起来,实现协同推理,是核心挑战。
这里面的主要工作便是通过多模态预训练和多模态的指令微调,来实现模态之间的对齐,以及模型输出与人类意图的对齐。
1.2 多模态的发展历程
最初的发展 集中在多模态的内容理解和文本的生成,例如 Flamingo, BLIP-2, Kosmos-1, LLaVA/LLaVA-1.5/LLaVA-1.6, MiniGPT-4, MultiModal-GPT, Video-Chat, Video-LLaMA, IDEFICS, Fuyu-8B, Qwen-Audio。
同时实现多模态的输入和输出 工作 MM-LMM,探索特定模态的生成,例如 Kosmos-2, Mini-GPT5, 以及语音生成的 SpeechGPT。
将 LLM 和外部工具继承进来 ,实现'any-to-any'的多模态理解和生成,如 visual-chatgpt, ViperGPT, MM-React, HuggingGPT, AudioGPT。
为了减少级联过程中传播误差的工作 ,有 NExT-GPT 和 CoDI-2,来开发任意模式的多模态模型。
1.3 内容结构 本文接下来的结构如下所示。第二节讲模型架构,第三节讲训练流程。
第二节模型架构分为五部分:不同模态的编码器 Encoder,输入 Projector,LLM 骨干,输出 Projector,不同模态的生成器。
训练流程包含两个部分:预训练流程和指令微调部分。同时提供了主流的数据集的介绍。
2. 模型结构 如图 2 所示,这里包含了通用多模态模型结构的五个组件部分,以及每个组件部分的常用选择。多模态理解主要是前三个部分(模态对齐)。训练期间,encoder,LLM Backbone 和 generator 一般保持冻结。主要优化输入和输出的 projector。由于 Projector 是轻量级的模块,MM-LLMs 中可以训练的参数比例和总参数相比非常小(2% 左右),模型的总体参数规模取决于 LLM 部分。
注意 :目前有的多模态大模型,也会对 Encoder,甚至 LLM 进行训练,来提升整体的模型的能力。
2.1 Modality Encoder 模态编码器主要是对来自不同模态的输入进行编码,来获得相应的特征:
存在各种预训练的编码器来处理不同的模态,模态可以是图像、视频、音频、3D 等。
视觉模态:
对于图像,一般有四个可选的编码器:NFNet-F6, ViT, CLIP ViT, EVA-CLIP ViT。
NFNet-F6 :是一个无归一化的 ResNet 网络,可以在增强过的数据集上获得 SOTA 的图像识别的性能。
ViT :采用 transformer 模型,将 image 变成 patch,然后对图像进行处理。然后经过线性投影 flatten,然后经过多个 transformer 模块。
CLIP-ViT :利用大量的文本 - 图像块,通过对比学习来优化 ViT,将成对的文本图像视为正样本,其他的文本和图像视为负样本。
EVA-CLIP :对大规模的 CLIP 训练稳定了训练过程和优化过程。
对于视频,可以统一采样 5 帧,进行与图像同样的处理。
音频模态:
通常使用 C-Former, HuBERT, BEATs 和 Whisper 等进行编码。
C-Former :使用了 CIF 对齐机制来实现序列的转换,并且使用一个 Transformer 来提取音频特征。
HuBERT :是一个自监督的语音表征框架,基于 BERT。通过离散 hidden units 的 mask 预测来实现。
BEATs :是一个迭代的音频预训练框架,使用音频 Transformer 来学习双向编码表示。
2.2 输入 Projector 输出 projector 的任务是将其他模态的编码特征 $F_X$ 与文本特征空间的特征 $F_T$ 进行对齐。对齐后的特征作为 prompts $P_x$ 联通文本特征 $F_T$ 输入到 LLM Backbone 内。给定 X 模态-text 数据集 $ ext{{}I_X, t}$,目标是最小化生成损失。
输入 Projector 可以通过 MLP 或者多层 MLP 来实现。也有复杂的实现,比如 Cross-Attention, Q-Former, P-Former 等。Cross-Attention 使用一系列的可训练的 query 和编码特征 $F_X$ 作为 key 来压缩特征序列到固定的长度。将压缩的表示特征输给 LLM。
2.3 LLM Backbone LLM 作为核心智能体,MM-LLMs 可以继承一些显著的属性,如零样本泛化(zero-shot)、少样本 ICL、思想链 (CoT) 和指令遵循。LLM 主干处理来自各种模态的表示,参与有关输入的语义理解、推理和决策。它产生 (1) 直接文本输出 $t$,以及 (2) 来自其他模式(如果有)的信号 token $S_X$。这些信号 token 充当指导生成器是否生成 MM 内容的指令,如果是,则指定要生成的内容:
$$t, S_X = \text{LLM}(P_X, F_T)$$
上式中,其他模态 $P_X$ 的对齐后的表征,可以认为是软 prompt-tuning,输给 LLM Backbone。而且一些研究工作引入了 PEFT 的方法,例如 Prefix-tuning, Adapter 和 LoRA。在这些 case 里面,希望更少的参数可以被训练,甚至少于 0.1% 的 LLM 的参数参与训练。
通常用到的 LLM 模型有 Flan-T5, ChatGLM, UL2, Qwen, Chinchilla, OPT, PaLM, LLaMA, LLaMA2, Vicuna 等。
2.4 Output Projector 输出 Projector 将 LLM 的输出的 token 表征 $S_X$ 转变成特征 $H_X$,然后输给生成器 $M_G^X$。
给定数据 X-text 数据集 $ ext{{}I_X, t}$,首先将文本 $t$ 输给 LLM,生成对应的 $S_X$,然后映射得到 $H_X$。模型优化的目标是最小化 $H_X$ 与 $M_G^X$ 的条件文本之间的距离。
2.5 模态生成器 模态生成器 $M_G^X$ 一般用于生成不同的模态来输出。当前的工作一般使用现成的扩散模型(Latent diffusion model),例如 Stable Diffusion 用于图像生成,Zeroscope 用于视频生成,AudioLDM-2 用于音频生成。
输出 Projector 输出的特征 $H_X$ 作为条件输入,在去噪的过程中,用于生成 MM 的内容。训练过程中,gt content 首先转换为 latent feature $z_0$,由预训练好的 VQA 模型。然后噪声 $ε$ 加到 $z_0$ 上,获得 noise latent feature $z_t$,预训练好的 UNet 用于计算条件损失,通过最小化 loss 来优化参数。
3. 训练过程
3.1 预训练阶段 在预训练阶段,通常利用 X-Text 的数据集,来训练输入、输出的 Projector。通过优化损失函数来实现不同模态的对齐。PEFT 有时候用于 LLM Backbone。
X-文本数据集包含图像 - 文本、视频 - 文本和音频 - 文本,其中图像 - 文本有两种类型:图像 - 文本对(即 $(I, T)$)和交错图像 - 文本语料库(即 $T_1 > I > T_2$)。这些 X-Text 数据集的详细统计数据如附录 F 的表 3 所示。
3.2 多模态微调 多模态微调是对满足指令微调格式的一系列数据集对预训练好的多模态大模型进行微调。
通过这种微调,MM-LLM 是可以遵循新的指令泛化到没有见过的任务,增强 zero-shot 的能力。这个简单而有影响力的概念促进了 NLP 领域后续努力的成功,例如 InstructGPT、OPT-IML、InstructBLIP。
MM IT 包括监督微调(SFT)和 RLHF 两部分,目的是为了使得模型符合人类的意图或者偏好,并且增强 MMLLMs 的交互能力。
SFT 将 PT 阶段的数据转换为指令-aware 的格式,使用 QA 任务作为例子。可以采用各种模板,例如:
(1) {Question} A short answer to the question is;
(2) Examine the image and respond to the following question with a brief answer: {Question}. Answer:
优化目标和预训练是相同的,SFT 数据可以构造为单轮的 QA 或者多轮的 QA。
4. 多模态大模型总结
4.1 26 个多模态大模型全面比较 如对表 1 所示,对 26 SOTA MM-LLMs 的架构和训练数据集规模进行了全面比较。随后,简要介绍这些模型的核心贡献并总结了它们的发展趋势。
Flamingo :代表了一系列视觉语言 (VL) 模型,旨在处理交错的视觉数据和文本,生成自由格式的文本作为输出。
BLIP-2 :引入了一个资源效率更高的框架,包括用于弥补模态差距的轻量级 Q-Former,实现对冻结 LLMs 的充分利用。利用 LLMs,BLIP-2 可以使用自然语言提示进行零样本图像到文本的生成。
LLaVA :率先将 IT 技术应用到 MM 领域。为了解决数据稀缺问题,LLaVA 引入了使用 ChatGPT/GPT-4 创建的新型开源 MM 指令跟踪数据集以及 MM 指令跟踪基准 LLaVA-Bench。
MiniGPT-4 :提出了一种简化的方法,仅训练一个线性层即可将预训练的视觉编码器与 LLM 对齐。这种有效的方法能够复制 GPT-4 所展示的功能。
mPLUG-Owl :提出了一种新颖的 MM-LLMs 模块化训练框架,结合了视觉上下文。为了评估不同模型在 MM 任务中的表现,该框架包含一个名为 OwlEval 的教学评估数据集。
X-LLM :陈等人扩展到包括音频在内的各种模式,并表现出强大的可扩展性。利用 Q-Former 的语言可迁移性,X-LLM 成功应用于汉藏语境。
VideoChat :开创了一种高效的以聊天为中心的 MM-LLM 用于视频理解对话,为该领域的未来研究制定标准,并为学术界和工业界提供协议。
InstructBLIP :基于预训练的 BLIP-2 模型进行训练,在 MM IT 期间仅更新 Q-Former。通过引入指令感知的视觉特征提取和相应的指令,该模型使得能够提取灵活多样的特征。
PandaGPT :是一种开创性的通用模型,能够理解 6 不同模式的指令并根据指令采取行动:文本、图像/视频、音频、热、深度和惯性测量单位。
PaLI-X :使用混合 VL 目标和单峰目标进行训练,包括前缀完成和屏蔽令牌完成。事实证明,这种方法对于下游任务结果和在微调设置中实现帕累托前沿都是有效的。
Video-LLaMA :引入了多分支跨模式 PT 框架,使 LLMs 能够在与人类对话的同时同时处理给定视频的视觉和音频内容。该框架使视觉与语言以及音频与语言保持一致。
Video-ChatGPT :是专门为视频对话设计的模型,能够通过集成时空视觉表示来生成有关视频的讨论。
Shikra :介绍了一种简单且统一的预训练 MM-LLM,专为参考对话(涉及图像中区域和对象的讨论的任务)而定制。该模型展示了值得称赞的泛化能力,可以有效处理看不见的设置。
DLP :提出 P-Former 来预测理想提示,并在单模态句子数据集上进行训练。这展示了单模态训练增强 MM 学习的可行性。
BuboGPT :是通过学习共享语义空间构建的模型,用于全面理解 MM 内容。它探索图像、文本和音频等不同模式之间的细粒度关系。
ChatSpot :引入了一种简单而有效的方法来微调 MM-LLM 的精确引用指令,促进细粒度的交互。由图像级和区域级指令组成的精确引用指令的结合增强了多粒度 VL 任务描述的集成。
Qwen-VL :是一个多语言 MM-LLM,支持英文和中文。Qwen-VL 还允许在训练阶段输入多个图像,提高其理解视觉上下文的能力。
NExT-GPT :是一款端到端、通用的 any-to-any MM-LLM,支持图像、视频、音频、文本的自由输入输出。它采用轻量级对齐策略,在编码阶段利用以 LLM 为中心的对齐方式,在解码阶段利用指令跟随对齐方式。
MiniGPT-5 :是一个 MM-LLM,集成了生成 voken 的反演以及与稳定扩散的集成。它擅长为 MM 生成执行交错 VL 输出。在训练阶段加入无分类器指导可以提高生成质量。
*注:本综述共涵盖 26 种主流模型,以上列举了其中具有代表性的 19 种,其余模型在架构或应用场景上各有侧重,共同推动了多模态技术的发展。
5. 未来发展方向 综合回顾了主要 MM-LLMs 在 18 个广泛使用的视觉语言评测集上的表现,并总结提炼出提升模型效果的重要训练方法。探讨了 MM-LLMs 未来发展的 5 大方向:
构建更强大的模型 :进一步提升模型的理解与生成能力。
设计更具挑战性的评估集 :建立更全面的 benchmark 以衡量模型真实水平。
移动端/轻量级部署 :降低算力需求,实现边缘侧应用。
具备实体性的智能 :结合机器人技术,实现物理世界的交互。
持续性指令调整 :支持模型在长期交互中持续学习和适应。
综上,该论文系统梳理了 MM-LLMs 的框架、模型、评估指标和未来研究方向,对其现状和发展趋势进行了全面而深入的总结,为相关领域的研究与进一步发展奠定了基础。
参考资料 [1] Visual Instruction Tuning towards General-Purpose Multimodal Model: A Survey
https://arxiv.org/abs/2312.16602
[2] MM-LLMs: Recent Advances in MultiModal Large Language Models
https://arxiv.org/abs/2401.13601
相关免费在线工具 加密/解密文本 使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online