多模态大语言模型(MM-LLMs)架构与训练进展综述
多模态大型语言模型(MultiModal Large Language Models, MM-LLMs)近期在人工智能领域取得了显著进步。通过有效的训练策略,这些模型不仅能够处理文本输入输出,还能高效处理图像、视频和音频等多种模态数据,同时保留并增强了语言模型的推理与决策能力。MM-LLMs 的出现推动了下游任务性能的全面提升,成为连接感知智能与认知智能的关键桥梁。
1. MM-LLMs 的基本架构
多模态大型语言模型的核心架构通常由五个主要组件构成:模态编码器(Modality Encoder)、输入投影器(Input Projector)、LLM 主干(LLM Backbone)、输出投影器(Output Projector)以及模态生成器(Modality Generator)。这种设计旨在实现不同模态特征空间与语言模型语义空间的无缝对齐。
1.1 模态编码器(Modality Encoder)
模态编码器的主要功能是将不同模态的原始输入转换为对应的特征表示 $F_X$。例如,对于图像输入,通常采用预训练的视觉 Transformer(ViT)或卷积神经网络(CNN)作为编码器;对于音频输入,则使用特定的音频编码器(如 Wav2Vec 或 SpecAugment 处理后的频谱图编码器)。这一过程将高维的非结构化数据映射为低维的特征向量,使其能够被后续模块理解。
1.2 输入投影器(Input Projector)
输入投影器的作用是将模态编码器产生的特征映射到语言模型主干可以理解的空间。由于视觉或音频特征的维度与 LLM 的隐藏层维度通常不一致,投影器(通常为线性层或多层感知机 MLP)负责进行维度变换和对齐。它确保了不同模态信息可以被整合并传递给模型的核心部分进行处理,是实现多模态融合的关键环节。
1.3 LLM 主干(LLM Backbone)
这是模型的中心部分,基于预训练的文本型语言模型(如 LLaMA、Qwen 等)。在训练过程中,这部分参数一般保持冻结状态(Frozen),以保留模型原有的语言理解和生成能力,防止灾难性遗忘。LLM 主干负责处理从输入投影器接收到的多模态特征,结合上下文信息生成中间表示,是模型推理能力的核心载体。
1.4 输出投影器(Output Projector)
输出投影器与输入投影器相反,它将从 LLM 主干得到的中间表示转换为目标模态的输出。例如,在文本生成任务中,它将隐藏状态映射回词表空间;在图像生成任务中,它可能将表示转换为潜在空间向量供解码器使用。其设计需确保输出格式符合目标模态的分布要求。
1.5 模态生成器(Modality Generator)
模态生成器用于生成新模态的数据,比如根据文本描述生成图像或语音。它在需要生成输出模态时发挥作用,例如视觉描述生成(Image Captioning)、文生图(Text-to-Image)或语音合成(TTS)。该组件通常包含专门的解码网络,能够将语言模型的语义指令转化为具体的感官信号。
2. MM-LLMs 的训练流程
多模态大型语言模型的训练流程主要包括两个关键阶段:多模态预训练(MM PT)和多模态指令微调(MM IT)。这两个阶段共同决定了模型的多模态对齐能力和泛化性能。
2.1 多模态预训练(MM PT)
MM PT 阶段利用大规模跨模态数据集(如 X-Text 数据集),旨在训练输入投影器和输出投影器,使它们能够实现不同模态间的语义对齐。对于仅涉及多模态理解的模型,优化主要集中在使输入投影器能将不同模态输入映射到统一表示空间,通常采用对比学习损失(Contrastive Loss)来拉近图文对的嵌入距离。对于涉及多模态生成的模型,优化包括使输入投影器、输出投影器以及模态生成器协同工作,实现模态间的转换和生成,常使用自回归语言建模损失(Next Token Prediction Loss)。
X-Text 数据集通常包含 Image-Text、Video-Text 和 Audio-Text 对,其中 Image-Text 有 Image-Text 配对和交错 Image-Text 语料库两种类型,丰富的数据多样性有助于提升模型的鲁棒性。
2.2 多模态指令微调(MM IT)
MM IT 是指使用指令格式化数据集对预训练的 MM-LLMs 进行微调,让模型能够泛化到未见过的任务。这一过程使 MM-LLMs 能够更好地理解人类意图,增强对话交互能力,从而提升模型在实际应用中的性能。常用的方法包括基于人类反馈的强化学习(RLHF)或直接偏好优化(DPO),通过人工标注的高质量指令 - 回复对,引导模型遵循复杂的多模态指令。


