LLaVA-NeXT 至 Cambrian-1:SOTA 多模态大模型架构设计最佳实践
本文聚焦 2024 年以来学术界和产业界的 SOTA 多模态大模型 (Multimodal Large Language Models, MLLM),分享架构设计中的深刻见解与最佳实践。最新流行的 MLLM 架构大多采用类 LLaVA 的 ViT+MLP+LLM 范式。得益于 LLaVA 的精简设计、数据和训练高效性、更强的 baseline 性能,LLaVA 架构建立起了良好的应用生态。国内也涌现出了高质量的 MLLM,InternVL 拉近了开源模型与 GPT-4V 的差距,具备 4K 高分辨率处理能力,而 MiniCPM-V 实现了高效端侧部署。最新的 Cambrian-1 则是鼓励研究者跳出当前 MLLM 的思维定式,不断探索视觉表征更多的可能性。
01 LLaVA-NeXT 系列
LLaVA-1.5
23 年 10 月,LLaVA-1.5 发布,通过在视觉和语言模态间添加简单的 MLP 层实现了训练样本高效性,为多模态大模型在低数据业务场景的落地提供了可能。
LLaVA-NeXT
24 年 1 月,LLaVA-NeXT(1.6) 发布,在 1.5 的基础上保持了精简的设计和数据高效性,支持更高的分辨率、更强的视觉推理和 OCR 能力、更广泛场景的视觉对话。模型分为两阶段训练:阶段 1 预训练只训练连接层,阶段 2 指令微调训练整个模型。
- 动态高分辨率 AnyRes:为了让模型能感知高分辨率图像的复杂细节,对图像进行网格划分。比如,对于 672x672 的图像,一方面按 2x2 的网格切分为 4 张 336px 的输入图像送给 ViT 编码成特征,另一方面将图像直接 resize 到 336px 进行编码,最后将两部分特征合并输入到 LLM 中,这样模型具备了全局和局部的视觉推理能力。
- 指令数据混合:一方面保证指令数据具有高质量、多样性,反映真实场景的广泛用户意图;另一方面,补充文档和表格数据,提升模型的 OCR 和图表理解能力。
- 扩大 LLM 尺寸:考虑了 7B、13B、34B 的 LLM。
24 年 5 月,团队发布基于更强 LLM 的 LLaVA-NeXT 版本,支持 LLaMA3(8B) 和 Qwen1.5(72B/110B)。更大的 LLM 提供更好的视觉世界知识和逻辑推理能力,最大的模型接近 GPT-4V 的性能,同时保证了训练高效性。
LLaVA-NeXT-Video
24 年 4 月,LLaVA-NeXT-Video 发布,展现出强大的 zero-shot 视频理解能力。LLaVA-NeXT 中的高分辨率图像动态划分可以很自然地迁移到视频模态用来表示视频的多帧,使得只在图文模态上训练的 LLaVA-NeXT 能在视频任务上泛化。此外,推理时的长度泛化用于有效处理超出 LLM 最大长度的长视频输入。基于 LLaVA-NeXT-Image 模型,作者发布了在视频数据上监督微调的 LLaVA-NeXT-Video,以及在 AI 反馈的监督下使用 DPO 偏好对齐的 LLaVA-NeXT-Video-DPO。使用 SGLang 部署和推理,支持可扩展的大规模视频推理。
- AnyRes:可以将 N 帧视频看作 {1xN} 的网格,而 LLM 的最大长度限制了可以处理的帧数,很自然地会考虑对图像进行下采样减少每帧 token 数,但作者发现为保证效果仍只能处理 16 帧。
- 长度泛化:基于 LLM 的长度外推技术(RoPE 的线性扩展),推理时扩展 2 倍,从之前的 16 帧扩展到 56 帧,大大提升了模型分析长视频序列的能力。
- 基于 LLM 反馈的 DPO 偏好优化:偏好数据由 LLM 生成,视频表示为详细的说明文字,带来了很大的性能增益。
- 视频数据微调 Ablation Study:(1) 在 LLaVA-NeXT 图像级指令微调后,继续在视频级指令上增量微调;(2) 在 LLaVA-NeXT 图像级预训练后,在图像级和视频级数据联合微调,每个 batch 数据包含一种类型或者混合两种类型,实验表明混合图像和视频模态数据效果最佳。
指令微调 Ablation Study
团队还分享了视觉指令微调过程中除数据之外的因素的 ablation study,从模型架构、视觉表征、训练策略角度进行分析。
- 模型架构:扩展 LLM 比扩展视觉编码器更有效,视觉输入配置(分辨率、token 数)比视觉编码器大小更关键。
- 学习率:为了训练更稳定,视觉编码器的学习率通常应该比 LLM 学习率小 10 倍~5 倍,更大的 LLM 需要更小的学习率,尽量避免 loss 跑飞。
- 视觉编码器:相较于模型大小,基于分辨率、token 数的视觉特征支持编码更多的视觉细节,预训练数据支持编码更多的视觉知识,作用更重要。


