跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

多模态大模型主流架构与技术要点总结

综述由AI生成系统梳理了多模态大模型的主流技术架构与训练流程。涵盖了 BLIP2、InstructBLIP、Qwen-VL、Qwen2-VL、LLaVA、MiniGPT-4 及 MiniGPT-v2 等代表性模型。详细解析了各模型的视觉编码器、VL Adapter 及 LLM 选型,重点阐述了 Q-Former 机制、两阶段预训练策略、指令微调方法以及针对不同任务的数据集构建。文章还对比了各模型在视频理解、长上下文支持及视觉 Agent 能力上的演进,并对未来多模态大模型在效率优化、长上下文处理及具身智能方向的发展趋势进行了展望。

奶糖兔发布于 2025/2/7更新于 2026/6/222 浏览
多模态大模型主流架构与技术要点总结

多模态大模型技术点总结

BLIP2

论文地址: https://arxiv.org/pdf/2301.12597

发布时间: 2023.06.15

模型结构:

  • Vision Encoder:ViT-L/14
  • VL Adapter:Q-Former
  • LLM:OPT (decoder-based),FlanT5(encoder-decoder-based)

BLIP2 Framework

Overview of BLIP-2's framework

论文主要提出 Q-Former(Lightweight Querying Transformer)用于连接模态之间的 gap。BLIP-2 整体架构包括三个模块:视觉编码器、视觉和 LLM 的 Adapter(Q-Former)、LLM。其中 Q-Former 是 BLIP-2 模型训练过程中主要更新的参数,视觉 Encoder 和大语言模型 LLM 在训练过程中冻结参数。

BLIP-2 的预训练包括两个阶段:

Stage 1)Vision-and-Language Representation Learning. Q-Former 与冻结的 Image Encoder(ViT-L/14) 连接,在和文本交互中学习图文相关性表示(3 个预训练任务)。

Stage 2)Vision-to-Language Generative Learning. 第一个阶段训练得到的 Q-Former 的输出接入一个大语言模型,学习视觉到文本生成(1 个预训练任务)。

阶段 1 详解

Q-Former Structure

阶段 1:左侧为 Q-Former 的结构以及如何学习视觉文本表征,右侧 self-attention masking 策略

阶段 1:Q-Former 的结构如上图所示,包括两个 Transformer 子模块(共享 Self-Attention 层),一个 image transformer 与 image encoder 交互提取视觉表征(图中黄色区域左侧),一个 text transformer 既作为 text encoder 也作为 text decoder(图中黄色区域右侧)。首先创建一个可学习的 query 向量(Learnable query embeddings)作为 image transformer 的输入,queries 通过 self-attention 层进行自我交互,然后与冻结参数的 image features(来自 image encoder)通过 cross-attention 层(插入每隔一个 block)进行交互,此外这个 query 向量还与 text 通过同一个 self-attention 进行交互。在不同的预训练任务中,使用不同的 self-attention masks 来影响查询文本的交互,在这个阶段的预训练中,一共通过三个任务进行学习(类似 BLIP),分别为:

  1. ITM(Image-Text Matching): 图文匹配任务,使用双向 self-attention mask,不进行掩码,该任务目标是学习细粒度的图文表示对齐。训练过程中 queries 和 text 可以完全互相看到,query embeddings 的输出 Z 包含了多模态的信息,将它输入一个 2 分类 linear 层得到一个 logit,平均来自所有 queries 的 logits 作为最终的匹配分数,论文采纳了难负样例挖掘的策略创建更具信息量的负样本对。
  2. ITG(Image-Guided Text Generation): 图引导文本生成,使用 causal self-attention mask,由 q-former 的架构可以看到,冻结的 image encoder 没有和 text tokens 直接交互,而生成 (generation) 所需要的信息必须首先通过 queries 提取视觉信息以及通过 self-attention 传给 text tokens,因此 queries 被迫学习抽取可以描述文本信息的视觉特征。论文使用 multimodal causal self-attention mask 来控制 query 和 text 的交互(同 UniLM 中的使用),queries 可以看到自己但看不到 text tokens,text tokens 可以看到 queries 以及已经生成的 text tokens,用 [DEC] token 取代 [CLS] token 作为第一个 text token 来指示解码任务的开始。
  3. ITC(Image-Text Contrastive Learning): 图文对比学习,使用单模态 self-attention mask,对 text 的 token 全部进行掩码,使得 queries 和 text 互相看不到,这个任务对齐的是来自 image transformer 的 query 表示和来自 text transformer 的文本表示([CLS] token)。

在论文实验中,选用两种视觉编码模型:

  1. CLIP 预训练的 ViT-L/14.
  2. EVA-CLIP 预训练的 ViT-g/14. 并移除 ViT 的最后一层,只使用倒数第二层的输出特征(实验中效果更好),与 queries 交互。Learned Queries 侧使用 32 个 query,每个 query 维度 768,q-former 输出维度为 32768,这样比冻结的 image features 维度要小很多(比如对于使用 ViT-L/14 来说是 2571024),因此第一个阶段主要目标是训练 queries 可以提取蕴含语义信息的视觉表示。

阶段 2 详解

Stage 2 Architecture

阶段 2:从冻结 LLM 中学习视觉文本生成,两种 LLM(上图 Decoder-based,下图 Encoder-Decoder-based)

阶段 2:Q-Former 通过一个 FC 层使得 Q-former 的输出 query embedding Z 对齐到与 LLM 输入同样的维度,并前置于 input text embedding 一起输入 LLM,这种拼接方式有点像软视觉提示(soft visual prompt),q-former 在前面预训练任务中已经学到如何抽取蕴含语言信息的视觉表示,该阶段中可以起到把最重要信息输入给 LLM 同时去除错误没有意义的视觉信息的作用,从而降低 LLM 学习视觉语言对齐的负担,同时也缓解了灾难遗忘的问题。

论文实验了两种 LLM,对于 decoder-based LLM,预训练使用 language modeling loss。对于 encoder-decoder-based LLM,预训练使用 prefix language modeling loss,将 text 分成两部分,前一部分与 q-former 输出拼接一起作为编码器的输入,后面部分作为解码器的生成目标。

InstructBLIP

论文地址: https://arxiv.org/pdf/2305.06500

发布时间: 2023.06.15

模型结构:

  • Vision Encoder:ViT-g/14
  • VL Adapter:Q-Former
  • LLM:FlanT5-xl(3B), FlanT5-xxl(11B), Vicuna-7B, Vicuna-13B

InstructBLIP Architecture

InstructBLIP 的模型架构

InstructBLIP 的模型结构与 BLIP-2 类似,区别在于输入文本换成了指令数据 Instructions。Q-Former 抽取指令感知的视觉特征(Instruction-aware vision model),根据指令的不同获取不同的视觉特征。然后将这些视觉特征作为 LLM 的软视觉提示(soft prompt),使用 language modeling loss 和指令微调模型生成回复。

训练过程(Vision-Language Instruction Tuning): 3 阶段训练以及 zero-shot 预测

  1. Stage 1: 预训练,训练 Q-Former 和 Projection Layer,冻结 image encoder。使用 image caption 数据,学习视觉文本相关性表示。
  2. Stage 2: 预训练,训练 Projection Layer,冻结 LLM。使用 image caption 数据,学习对齐 LLM 的文本生成。
  3. Stage 3: 指令微调,训练 Q-Former 和 Projection Layer。使用 Instruction 任务数据,学习遵循指令生成回复的能力。

训练数据: 收集 11 个任务以及相应的 26 个数据集。对于每个任务,人工编写 10-15 个自然语言的指令模版,作为构造指令微调数据的基础。对于偏向较短回复的开源数据集,在指令模版中使用'short/briefly'降低模型过拟合为总是生成较短回复。

Instruction Datasets

被使用的 Instruction 数据集

Instruction Templates

多模态训练数据的指令模版

Qwen-VL

论文地址: https://arxiv.org/pdf/2308.12966

发布时间: 2023.10.13

模型结构:

  • Vision Encoder:ViT-bigG/14
  • VL Adapter:a single-layer cross-attention(Q-former 的左侧部分)
  • LLM:Qwen-7B

Qwen-VL Pipeline

Qwen-VL 的训练 Pipeline

VL Adapter 创建一组可训练的 queries 向量和 image features 一起做 cross-attention,将视觉特征压缩至 256 的固定长度,同时为了提升细粒度的视觉理解,在 cross-attention 中也加入图像的 2D 绝对位置编码。

Image Input 使用特殊 token(<image>)分隔,Bounding Box Input 使用特殊 token(<box>)分隔,bounding box 的 content referred 使用特殊 token(<ref>)分隔。

训练过程:

  1. Stage 1: 预训练,训练 Cross-Attention 和 ViT,冻结 QwenLM。
  2. Stage 2: 多任务预训练(7 tasks 同时),全参数训练。
  3. Stage 3: 指令微调,训练 Cross-Attention 和 QwenLM,冻结 ViT。

Training Parameters

Qwen-VL 的训练参数设置

训练数据:

  • 第一阶段使用 image-text pairs 数据,77.3% 英文、22.7% 中文,一共 14 亿数据训练,图片 size=224*224.
  • 第二阶段使用质量更高的 image-text pairs 数据,包含 7 个任务,图像 size=448*448. 在同一个任务下构造交错图像文本数据,序列长度为 2048. 训练目标与 Stage1 一致。
  • 第三阶段使用 Instruction 数据,训练指令遵循和对话能力,通过 LLM self-instruction 构造,一共 350k 条。

Instruction Format

指令格式

Qwen2-VL

论文地址: https://arxiv.org/pdf/2409.12191

发布时间: 2024.09.18

模型结构:

  • Vision Encoder:ViT/14
  • VL Adapter:Cross-Modal Connector
  • LLM:Qwen2-1.5B, Qwen2-7B, Qwen2-72B

Qwen2-VL Params

Qwen2-VL 模型参数

Capabilities

模型拥有更多的能力

Architecture

模型架构图,可同时输入不同分辨率、清晰度、纵横比图片

Qwen2-VL 相较于 Qwen-VL 的主要改进点(除了一些 VQA 等基础能力的提升之外):

  1. 支持视频理解,支持 context 上下文长度到 128k token(20 分钟左右视频)。
  2. Visual Agent 能力,支持实时视频对话。
  3. 图像位置编码采用 2D-RoPE,一张 224*224 分辨率的图像经过 ViT/patch_size=14 等一系列转换之后会被压缩至 66 个 token 输入到 LLM。

训练过程:

  1. Stage 1: 训练 ViT,使用大量 image-text 对。
  2. Stage 2: 全参数微调,使用更多的数据提升模型全面理解的能力。
  3. Stage 3: 指令微调,训练 LLM。

LLaVA

论文地址: https://arxiv.org/pdf/2304.08485

发布时间: 2023.12.11

模型结构:

  • Vision Encoder:ViT-L/14
  • VL Adapter:/
  • Projection Layer:a linear layer
  • LLM:LLaMA

LLaVA Architecture

LLaVA 模型网络架构

训练过程:

  1. Stage 1: Pre-training for Feature Alignment. 训练 Projection Layer
  2. Stage 2: Fine-tuning End-to-End. 训练 Projection Layer 和 LLM

LLaVA-1.5

论文地址: https://arxiv.org/pdf/2310.03744

发布时间: 2024.05.15

模型结构:

  • Vision Encoder:Clip 预训练 Vit-L/336px
  • VL Adapter:MLP
  • LLM:Vicuna v1.5 13B

LLaVA 1.5 Structure

模型结构图

MiniGPT-4

论文地址: https://arxiv.org/pdf/2304.10592

发布时间: 2023.10.02

模型结构:

  • Vision Encoder:ViT-G/14
  • VL Adapter:Q-Former
  • Projection Layer:a single linear
  • LLM:Vicuna

MiniGPT-4 Structure

模型结构图

训练过程:

  1. Stage 1: 只训练 Linear Projection Layer 来对齐视觉特征和大语言模型。使用大量 text-image pair 数据。
  2. Stage 2: 指令微调,使用少量高质量 text-image instruction 数据

指令模板: ###Human: <ImageFeature><Instruction>###Assistant:

MiniGPT-v2

论文地址: https://arxiv.org/pdf/2310.09478

发布时间: 2023.11.07

模型结构:

  • Vision Encoder:ViT
  • VL Adapter:/
  • Projection Layer:Linear
  • LLM:Llama2-7B

MiniGPT-v2 Structure

模型结构图

训练过程:

  1. Stage 1: 预训练,使用大量弱监督 image-text 和细粒度数据集的混合数据训练,让模型获取多样化知识
  2. Stage 2: 多任务训练,只使用细粒度高质量数据集训练模型在不同任务上的能力。
  3. Stage 3: 多模态质量微调,让模型具备 Chat 能力

训练数据: Dataset Info

在三个训练阶段中使用的数据集

总结与展望

本文总结了当前主流的多模态大模型架构及其训练流程。从 BLIP2 引入 Q-Former 解耦视觉与语言,到 InstructBLIP 强化指令遵循,再到 Qwen 系列对长视频和高分辨率的支持,以及 LLaVA 系列的轻量化探索,多模态领域正朝着更高效、更通用、更长上下文的方向发展。

未来的研究重点可能集中在以下几个方面:

  1. 效率优化: 进一步减少推理成本,探索更轻量的 Adapter 结构。
  2. 长上下文处理: 支持更长的视频和文档输入,提升复杂场景下的理解能力。
  3. 具身智能: 结合视觉与动作控制,实现真正的物理世界交互 Agent。
  4. 数据质量: 构建更高品质的多模态指令数据集,减少对合成数据的依赖。

通过深入理解这些模型的技术细节,开发者可以更有效地选择适合自身业务场景的多模态方案,推动 AI 技术在垂直领域的落地应用。

目录

  1. 多模态大模型技术点总结
  2. BLIP2
  3. 阶段 1 详解
  4. 阶段 2 详解
  5. InstructBLIP
  6. Qwen-VL
  7. Qwen2-VL
  8. LLaVA
  9. LLaVA-1.5
  10. MiniGPT-4
  11. MiniGPT-v2
  12. 总结与展望
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 基于 DamoFD-0.5G 的 AR 虚拟试妆系统实现
  • 大模型 RLHF 技术原理与实战解析
  • 汇川 RobotLab 软件常规操作指南
  • 代码大模型浪潮下,IT 技术人员的应对与转型策略
  • 如何下载、安装whisper、faster_whisper?
  • Whisper-WebUI 本地部署与语音转写实战指南
  • AI 驱动的在线考试系统全流程开发实践
  • C++ 从零实现高质量随机数生成器
  • Hunyuan-MT-7B-WEBUI 术语统一后处理实现方案
  • nlohmann/json:C++ 中最像 Python 的 JSON 库
  • OpenClaw 实战:20 个精选 Skills 让 AI 助手更智能
  • ESP32 开发环境搭建与智能家居接入实战
  • 我国网络安全人才市场供需趋势与特征分析
  • 基于 AI + Remotion + n8n 构建全自动视频生成流水线
  • Python 图片绘制与输出常用库原理详解
  • OpenClaw 接入飞书机器人与 Kimi2.5 配置指南
  • 相干伊辛机在医疗及医疗 AI 领域的应用前景分析
  • HDFS 编程实践:命令、API 与部署
  • AI 视频生成模型构建、实现与调试指南
  • 西门子 S7-1200FC PLC 与松下机器人 Profinet 通信及外部控制配置

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online