引言
随着人工智能技术的快速发展,多模态大型语言模型(Multimodal Large Language Models, MLLMs)已成为连接文本与视觉信息的关键桥梁。传统的 LLM 仅能处理文本数据,而 MLLM 通过整合视觉编码器与语言模型,实现了对图像、视频及图表等多形式数据的理解与生成。本文将深入探讨 MLLM 的核心概念、架构设计、训练策略及实际应用。
基本概念
多模态大型语言模型旨在设计能够理解和生成跨越多种形式数据输入内容的模型。其核心能力包括:
- 链接文本和视觉模态:MLLMs 能够整合文本和视觉数据源的信息,处理并理解结合了书面语言和视觉元素的内容。
- 提供基于对话的界面:模型可以进行交互,对文本输入做出响应,并提供结合文本和图像的相关回复,使沟通更自然直观。
- 提供指令遵循的能力:MLLMs 有潜力理解并遵循通过文本提供的复杂指令,并通过视觉上下文进行增强,执行需要理解一系列步骤的任务。
核心架构设计
任何多模态大型语言模型至少包含三个主要组成部分:作为交互界面的 LLM 基座、负责将图像数据转换为模型可处理形式的视觉编码器,以及用于将视觉信息转换或融合入语言处理流程中的适配器模块。
视觉编码器
视觉编码器通常采用预训练的卷积神经网络(CNN)或 Vision Transformer(ViT)。常见的选择包括 CLIP 的视觉分支、SigLIP 或 DINOv2。这些编码器将输入图像压缩为固定长度的特征向量序列,保留关键的语义信息。
投影层与适配器
由于视觉特征空间与语言特征空间存在差异,需要一个投影层(Projector)或适配器(Adapter)来对齐两者。
- 线性投影:最简单的方案,使用全连接层将视觉特征映射到 LLM 的嵌入空间。
- Q-Former:如 BLIP-2 中使用的查询变压器,通过可学习的查询向量从视觉特征中提取相关信息,再传递给 LLM。
- Perceiver Resampler:另一种高效的压缩机制,允许模型在保持计算效率的同时处理高分辨率图像。
语言模型基座
LLM 基座通常选择开源且权重可访问的模型家族,如 LLaMA 系列。选择原因包括:
- 权重自由访问,便于研究和修改。
- 基于公开数据训练,确保透明性和可重现性。
- 包含不同大小的版本,适应不同场景。
- 衍生版本(如 Alpaca、Vicuna)提供了特定任务的优化。

训练策略与对齐
有效 MLLMs 的核心在于准确地对齐文本数据和视觉数据,确保模型理解两种模态中元素之间的关系。
预训练阶段
训练 MLLMs 的技术可能非常复杂,通常包括带有标记的多模态数据集的有监督学习。常用的数据集包括 CC3M、LAION 等。对比学习是区分多模态输入之间细微差别的重要方法,通过最大化正样本对(图文匹配)的相似度,最小化负样本对的相似度。
指令微调
为每个训练样本提供所需任务的自然语言描述,可以增强模型的泛化能力。这种方法让模型在学习时不仅仅关注于输入和输出的匹配关系,还能理解整个任务的背景和目的。例如,Flamingo (2022) 是首个在视觉 - 语言领域大规模探索上下文学习(In-context learning)的模型,通过阅读前面的示例来改善对随后信息的理解和预测。
参数高效微调
当预训练的大型语言模型需要适应特定领域或应用时,可采用如下几种方法:
- LoRA (Low-Rank Adaptation):通过学习低秩矩阵来限制新权重的数量。这是一种有效管理模型复杂度的技术,可以在增强模型能力的同时,控制模型规模的膨胀。
- 提示调整 (Prompt Tuning):学习一小组向量,作为软提示在输入文本之前送入模型。这些'软提示'能够引导模型在处理输入文本时考虑到特定的任务要求。



