多模态大模型综述:从视觉理解到 Agent 协作
本文基于微软 7 位研究员联合撰写的 119 页技术综述,系统梳理了多模态大模型(Multimodal Large Language Models)的研究现状与前沿方向。文章指出,多模态基础模型正经历从专用走向通用的关键转变。
核心研究主题
综述将多模态大模型的研究划分为五个具体主题,其中前两个为成熟领域,后三个属于前沿探索。
1. 视觉理解 (Visual Understanding)
该领域的核心问题是如何预训练一个强大的图像理解 Backbone。根据训练监督信号的不同,方法主要分为三类:
- 标签监督:依赖人工标注的类别标签。
- 语言监督:以 CLIP 为代表,利用图文对进行对比学习。
- 自监督:仅使用图像本身挖掘监督信号,包括对比学习、非对比学习和 Masked Image Modeling(如 MAE)。
此外,综述还讨论了多模态融合、区域级和像素级图像理解等预训练策略,并列举了各方法的代表作品。

2. 视觉生成 (Visual Generation)
作为 AIGC 的核心,视觉生成不仅限于图像,还涵盖视频、3D 点云等。其价值不仅在于艺术创作,更在于合成训练数据,形成内容理解和生成的闭环。
作者重点讨论了生成结果与人类意图严格一致的重要性,并从以下四个维度展开:
- 空间可控生成:精确控制生成内容的布局。
- 基于文本再编辑:根据文本指令修改现有图像。
- 遵循文本提示:提高模型对 Prompt 的理解能力。
- 概念定制:实现特定风格或对象的生成。
未来趋势是开发通用的文生图模型,使其能灵活应用上述四个方向,更好地遵循人类意图。

3. 统一视觉模型 (Unified Vision Models)
构建统一视觉模型面临三大挑战:输入类型差异、任务粒度不同以及数据收集成本高(视觉数据规模远小于文本)。尽管存在困难,CV 领域对通用统一视觉系统的兴趣日益高涨,呈现三类趋势:
- 从闭集到开集:提升文本与视觉的匹配泛化能力。
- 从特定任务到通用能力:降低为新任务开发独立模型的边际成本。
- 从静态模型到可提示模型:借鉴 LLM 的上下文学习能力,使视觉模型无需微调即可适应新任务。

4. LLM 加持的多模态大模型
本节深入探讨多模态大模型的基础架构与训练方法:
- 背景与实例:分析 OpenAI 等多机构的研究进展及现有空白。
- 指令微调 (Instruction Tuning):强调其在提升模型遵循指令能力上的重要性,涵盖原理、意义及应用。
- 高阶主题:包括超越视觉和语言的模态扩展、多模态上下文学习、参数高效训练方法及 Benchmark 评估体系。
5. 多模态 Agent
多模态 Agent 旨在通过 LLM 连接不同的多模态专家,解决复杂的多模态理解问题。
- 模式转变:总结该方法与传统单模型方法的根本差异。
- 运作机制:以 MM-REACT 为例,展示 Agent 如何规划与执行。
- 构建与扩展:讨论如何构建具备新兴能力的 Agent,并轻松扩展到包含最新 LLM 及数百万种工具的场景。
- 评估与应用:涵盖 Agent 的改进评估方法及各类应用程序案例。

总结
多模态大模型正处于快速演进期。从视觉理解的底层预训练,到生成式 AI 的内容创造,再到统一模型与 Agent 的通用智能探索,技术栈日益丰富。对于研究人员与学生而言,掌握这些基础知识和最新进展,是在人工智能领域建立竞争优势的关键。