大模型技术综述:视觉、多模态与语言模型
本文整理并解读了当前人工智能领域内关于大视觉模型(LVM)、多模态大模型以及大语言模型(LLM)的经典论文与架构。内容涵盖从自回归图像生成到统一多模态预训练,再到指令微调与开源大模型的演进路径。旨在为技术人员提供系统的知识脉络与技术选型参考。
一、大视觉模型(Large Vision Models)
大视觉模型致力于将自然语言处理中的 Transformer 架构迁移至计算机视觉任务,实现图像的理解与生成。
1. ImageGPT:自回归视觉模型的先驱
ImageGPT 是首个成功将自回归语言模型应用于图像生成的尝试。它通过将图像序列化为 token 序列,利用 GPT 架构进行建模。该方法证明了 Transformer 在捕捉长距离像素依赖关系上的潜力,为后续基于自回归的图像生成模型奠定了基础。
2. 通过图像修复任务完成视觉提示
该研究探索了如何利用图像修复(Inpainting)任务来引导视觉模型的生成能力。通过掩码预测机制,模型学习根据上下文补全缺失的图像区域,从而实现对图像内容的隐式理解与可控生成。
3. 序列建模打造大视觉模型
此方向强调将视觉任务统一为序列建模问题。通过离散化图像表示,利用序列模型处理视觉信息,简化了多模态对齐的难度,提升了模型在复杂视觉任务中的泛化能力。
4. 大视觉模型的自回归预训练
针对大规模视觉数据的预训练策略,该部分探讨了如何在海量无标签图像数据上训练自回归模型。重点在于构建高效的 Tokenizer 和预训练目标,以提取通用的视觉特征表示。
5. AnyGPT:序列建模的统一多模态 LLM
AnyGPT 提出了一种统一的序列建模框架,能够处理文本、图像等多种模态的数据。它展示了单一 Transformer 架构在不同模态输入下的通用性,减少了多模态系统的设计复杂度。
6. VIM:使用 ViT 改进的 VQGAN 进行矢量量化图像生成
VIM 结合了 Vision Transformer (ViT) 的优势与矢量量化生成对抗网络 (VQGAN)。通过引入 ViT 作为编码器,提升了特征提取的效率与质量,进而优化了图像生成的细节表现力。
7. MaskGIT:非自回归的掩码图像生成 Transformer
MaskGIT 提出了一种非自回归的生成方法,通过迭代地掩码和预测图像块,显著加快了生成速度。相比传统自回归模型,它在保持生成质量的同时大幅降低了推理延迟。
8. LlamaGen:自回归模型击败扩散
LlamaGen 展示了自回归模型在图像生成任务中可以与扩散模型相媲美甚至超越。通过优化采样策略和模型结构,证明了自回归范式在高分辨率图像生成中的竞争力。
9. AutoNAT:重新思考图像生成中的非自回归建模
AutoNAT 深入分析了非自回归建模在图像生成中的局限性,并提出改进方案。旨在解决并行生成导致的模式坍塌问题,提升生成图像的多样性与真实性。
二、多模态大模型(Multimodal Large Models)
多模态模型旨在实现文本与视觉信息的深度融合,支持跨模态检索、问答及生成任务。
1. CLIP:大规模语言 - 图像对比预训练
CLIP 通过对比学习在大规模图文对上进行预训练。它无需特定任务微调即可实现 Zero-Shot 性能,成为多模态领域的基石模型,广泛应用于图像分类、检索等任务。
2. ViLT:一种极简多模态学习框架 Baseline
ViLT 去除了复杂的 CNN 骨干网络,直接使用 Transformer 处理图像 Patch 和文本 Token。其设计简洁高效,证明了纯 Transformer 架构在多模态任务中的有效性。
3. ALBEF:图文对齐后再融合,借助动量蒸馏高效学习
ALBEF 提出了先对齐后融合的策略,利用动量蒸馏机制稳定训练过程。该方法有效缓解了图文模态间的语义鸿沟,提升了多模态表征的学习效率。
4. VLMo:混合多模态专家的视觉语言预训练
VLMo 引入了混合专家(MoE)架构,结合视觉与语言专家网络。通过动态路由机制,模型能够灵活适应不同模态的特征分布,增强了多模态理解的深度。


