如何赋予 LLM 多模态能力(MLLM)
基本概念
多模态大型语言模型(Multimodal Large Language Models, MLLMs)是人工智能领域的前沿技术,旨在设计能够理解和生成跨越多种形式数据输入(如文本、图像、音频等)内容的模型。传统的 LLM 仅处理文本序列,而 MLLM 通过引入视觉编码器和其他感知模块,实现了跨模态的信息交互。
核心能力
- 链接文本和视觉模态:MLLMs 能够整合文本和视觉数据源的信息。模型可以处理并理解结合了书面语言和视觉元素(如图片、视频或图表)的内容,实现图文互译。
- 提供基于对话的界面:MLLMs 可以进行交互,对文本输入(如问题或提示)做出响应,并提供结合文本和图像的相关回复。这使得模型能以自然直观的方式与用户进行沟通,例如描述图片内容或根据图片回答问题。
- 提供指令遵循的能力:MLLMs 有潜力理解并遵循通过文本提供的复杂指令,并可能通过视觉上下文进行增强。这使得它们能够执行需要理解一系列步骤或程序的任务,例如'裁剪图片中红色的部分'。
关键技术组件
任何多模态大型语言模型(MLLM)至少包含三个核心组成部分:
- LLM 基座:作为与用户交互的核心接口,负责语言理解和生成。通常选择开源且高效的模型家族,如 LLaMA 系列。这些模型的权重可以自由访问,完全基于公开数据进行训练,且包含不同大小的版本以适应不同场景。
- 视觉编码器(Vision Encoder):负责将图像数据转换为模型可处理的形式。常用的编码器包括 Vision Transformer (ViT) 或 CLIP 的视觉分支。它将像素信息映射为高维特征向量。
- 视觉到语言的适配器模块(Projector/Adapter):用于将视觉信息转换或融合入语言处理流程中。这通常是一个多层感知机(MLP)或线性层,负责对齐视觉特征空间与语言特征空间。
架构选择与对齐策略
架构设计
现代架构主要涉及调整以适应文本和视觉信息独特方面的基于 Transformer 的模型。常见的架构模式包括:
- 早期融合(Early Fusion):在编码阶段就将图像和文本特征合并,计算量较大但交互充分。
- 晚期融合(Late Fusion):分别编码后在解码阶段进行交互,效率较高,是目前主流方案(如 Flamingo, BLIP-2)。
多模态对齐策略
有效 MLLMs 的核心组成部分是它们能够准确地对齐文本数据和视觉数据,确保模型理解两种模态中元素之间的关系。
- 对比学习(Contrastive Learning):通过最大化正样本对(匹配的图文)的概率,最小化负样本对的概率,使特征空间对齐。CLIP 模型是此方法的代表。
- 投影层对齐:使用简单的线性层或 MLP 将视觉特征投影到 LLM 的嵌入空间,使得 LLM 可以将视觉 token 视为特殊的文本 token 进行处理。
- 交叉注意力机制(Cross-Attention):允许语言解码器在生成过程中关注特定的视觉区域,实现细粒度的视觉定位(Visual Grounding)。
训练技术与范式
训练阶段
训练 MLLMs 的技术非常复杂,通常分为多个阶段:
- 预训练(Pre-training):使用大规模图文对数据进行训练,学习通用的视觉 - 语言表示。例如,Flamingo 在 2022 年探索了上下文学习(In-context learning),通过阅读前面的示例来改善对随后信息的理解和预测。
- 指令微调(Instruction Tuning):为每个训练样本提供所需任务的自然语言描述,增强模型的泛化能力。这种方法让模型在学习时不仅仅关注于输入和输出的匹配关系,还能理解整个任务的背景和目的。Visual Instruction Tuning (Vicuna, Alpaca-VL) 是此范式的典型应用。
- 强化学习(RLHF):在特定任务上通过人类反馈进一步优化模型输出质量。
参数高效微调(PEFT)
当预训练的大型语言模型(LLM)需要适应特定领域或应用时,可采用如下几种方法,避免全量微调带来的高昂成本:


