近一年,多模态视觉&语言大模型架构演进汇总梳理

近一年,多模态视觉&语言大模型架构演进汇总梳理

近一年,多模态视觉&语言大模型架构演进汇总梳理

CV开发者都爱看的  2024年07月15日 22:00 广东

作者丨Dreamweaver

极市导读

本文回顾了多模态LLM (视觉-语言模型) 近一年来的模型架构演进,对其中有代表性的工作进行了精炼总结,截止2024.06。

这篇综述一张图总结了多模态LLM的典型架构:

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

BLIP

【2022.01发布】[1]

统一视觉-语言理解和生成,使用captioner+filter高效利用互联网有噪数据

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

模型架构:

Image/text encoder: ITC loss对齐视觉和语言表征,基于ALBEF提出的momentum distillation

Image-grounded text encoder: ITM loss建模视觉-语言交互,区分positive/negative图文对,使用hard negative mining挖掘更高相似度的负例优化模型

Image-grounded text decoder: LM loss实现基于图像的文本解码,将双向self-attention替换为causal self-attention

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

BLIP的bootstrapping训练过程:

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

BLIP-2

【2023.01发布】[2]

使用相对轻量的Q-Former连接视觉-语言模态,通过两阶段训练:第1阶段基于冻住的视觉编码器,第2阶段基于冻住的LLM

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

第1阶段:同样优化ITC/ITM/LM loss,使用不同的self-attention mask,query和text端共享self-attention参数,使得可学习的query embedding提取与text语义最相关的视觉表征;使用BERT-base初始化,32个768维的query作为信息瓶颈

• ITC:计算每个query与text的相似度,取最大的;使用batch内negatives,不再使用momentum queue

• ITM:对每个query与text的分类logits取平均,使用hard negatives mining挖掘难负例

• LM:text token和frozen image encoder不能直接交互,要求query能提取有益的视觉特征

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

第2阶段:可基于decoder-only/encoder-decoder LLM进行适配,FC层对齐维度

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

LLaVA

【2023.04发布】[3]

• 使用仅文本模态的GPT-4生成视觉-语言指令遵循数据,用于微调多模态LLM

• 使用图片的dense captions和bounding boxes作为prompt,可以生成对话、细节描述、复杂推理等指令

• CLIP ViT-L/14 + Vicuna,使用简单的线性层进行映射

• 更复杂的:Flamingo中gated cross-attention,BLIP-2中的Q-former

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理
www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

• LLaVA模型的两阶段训练

• stage1. 预训练特征对齐:冻住vision encoder和LLM,只训练projection,学习一个兼容的visual tokenizer

• stage2. 端到端微调:冻住vision encoder,在单轮/多轮对话数据上微调projection和LLM

MiniGPT-4

【2023.04发布】[4]

stage1. 预训练:使用image-text pair微调linear projection layer,vision encoder和LLM保持冻住

stage2. 指令微调:指令格式为:###Human: ###Assistant:

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

InstructBLIP

【2023.05发布】[5]

stage1. 预训练:BLIP-2(使用image-text pairs进行两阶段训练)

stage2. 指令微调:只微调instruction-aware Q-former,冻住vision encoder和LLM

支持FlanT5(encoder-decoder)和Vicuna(decoder-only)

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

Qwen-VL

【2023.08发布】[6]

支持中英双语、多图像输入

Qwen-7B + OpenCLIP ViT-bigG,输入图像直接resize到视觉编码器输入

位置感知的VL adapter:使用基于Q-former的单层的cross-attention,将图像特征维度压缩到256,在query-key pairs中引入2D绝对位置编码增强位置信息

图像输入:256-dim图像特征

bounding box输入输出:(X_topleft, Y_topleft), (X_bottomright, Y_bottomright),…标记box所指内容

三阶段训练:

stage1. 预训练:基于大规模、弱标注、网络爬取的图像-文本对,输入分辨率224x224,冻住LLM,训练ViT和Q-former,主要目的是模态对齐

stage2. 多任务预训练:基于7种下游视觉-语言理解任务的高质量、细粒度标注数据训练,输入分辨率448x448,图像/文本数据交错,训练整个模型

stage3. 指令微调:提升指令遵循和多轮对话能力,冻住ViT,训练LLM和Q-former

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

Qwen-VL-Plus和Qwen-VL-Max提升了视觉推理能力、图像细节的识别/提取/分析能力(尤其是文本导向的任务)、支持高分辨率和极端纵横比的输入图像;在部分中文场景超过了GPT-4V和Gemini

InternLM-XComposer

【2023.09发布】[7]

交错图文构成:自动在输出文本中插入合适的图片

EVA-CLIP ViT + InternLM-7B + Q-former (将图像特征压缩到64个embedding)

两阶段训练:

stage1. 预训练:冻住ViT,训练LLM和Q-former

stage2. 监督微调:包括多任务训练和指令微调,冻住ViT和LLM,训练Q-former,对LLM进行LoRA微调,增强指令遵循和图文混排能力

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

Fuyu-8B

【2023.10发布】[8]

模型架构和训练过程简单,易于scaling;支持任意图像分辨率;推理速度快

decoder-only的transformer,没有专门的图像编码器;image patch直接线性映射到transformer第一层

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

LLaVA-1.5

【2023.10发布】[9]

仍使用MLP作为模态连接,突出了训练的数据高效性

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

CogVLM

【2023.11发布】[10]

深度视觉-语言模态融合,而不影响LLM原有的语言能力:冻住LLM和ViT,在attention和FFN层训练一份视觉专家模块

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

CogAgent

【2023.12发布】[11]

针对GUI场景的多模态理解和导引,使用高分辨率-低分辨率双编码器,支持1120x1120的屏幕输入

高分辨率分支使用更轻量的ViT,基于cross-attention将高分辨率图像特征与LLM每层进行融合

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

VILA

【2023.12发布】[12]

探索了视觉-语言模型训练的设计选择:

• 预训练阶段冻住LLM虽然能取得较好的zero-shot性能,但上下文学习能力依赖对LLM的微调

• 图文交错的预训练数据是有益的,只用图文数据对效果不够好

• 将纯文本的指令微调数据加入SFT阶段有助于缓解纯文本任务的能力退化,同时也能够增强视觉-语言任务的准确性

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

LLaVA-Next

【2024.01发布】[13]

相对于LLaVA-1.5,保持了极简的设计和数据高效性:

• 提高了输入图像的分辨率 (4x),支持3种纵横比:672x672, 336x1344, 1344x336

• 更好的视觉推理和OCR能力:更好的指令微调数据配比

• 更好的多场景视觉对话:更好的世界知识和逻辑推理

• 更高效的部署和推理:SGLang

动态高分辨率:视觉编码器支持336x336的图像输入,对于672x672的图像,按照{2,2}的grid split成4个图像patch过encoder,downsample到336x336也过encoder,特征拼接作为visual tokens输入到LLM中

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

收集高质量用户数据,包括真实场景中反映用户更广泛意图的指令数据,利用GPT-4V进行数据构造

多模态文档/图表数据,增强文档OCR和图表理解能力

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

InternLM-XComposer2

【2024.01发布】[14]

提出了新的模态对齐方法partial LoRA:只在image token上添加LoRA参数,保证预训练语言知识的完整性,这样一个更轻量的视觉编码器同样有效

OpenAI CLIP ViT-L/14 + InternLM2-7B + partial LoRA (rank=256)

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理
www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

两阶段训练:

stage1. 预训练:冻住LLM,微调ViT和partial LoRA模块,包括通用语义对齐(理解图像基本内容)、世界知识对齐(进行复杂的知识推理)、视觉能力增强(OCR、物体定位、图表理解)

stage2. 监督微调:微调整个模型,包括多任务训练、自由形式图文排布

InternLM-XComposer2-4KHD

2024.04发布了4KHD版本:https://arxiv.org/abs/2404.06512

支持动态分辨率(336px → 4K (3840x1600)):改进了patch division范式,保持训练图像原有的纵横比,自动变化patch数目,基于336x336的ViT配置layout

动态图像划分:将输入图像resize and pad到336的整数倍宽高

结合图像的global和local视角:global视角由输入直接resize到336x336,使用sep token分隔两种视角的token

图像2D结构的换行符:可学习的\n token分隔图像token行

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

Mini-Gemini

【2024.03发布】[15]

使用双视觉编码器提取低分辨率embedding作为query,高分辨率特征区域作为key/value,两者之间做cross-attention,输出挖掘的tokens作为prompt前缀,输入到LLM做推理,外接图像解码器生成图像(SDXL)

www.zeeklog.com  - 近一年,多模态视觉&语言大模型架构演进汇总梳理

引用链接

[1] 【2022.01发布】: https://arxiv.org/abs/2201.12086

Read more

60个“特征工程”计算函数(Python代码)

60个“特征工程”计算函数(Python代码)

转自:coggle数据科学 近期一些朋友询问我关于如何做特征工程的问题,有没有什么适合初学者的有效操作。 特征工程的问题往往需要具体问题具体分析,当然也有一些暴力的策略,可以在竞赛初赛前期可以带来较大提升,而很多竞赛往往依赖这些信息就可以拿到非常好的效果,剩余的则需要结合业务逻辑以及很多其他的技巧,此处我们将平时用得最多的聚合操作罗列在下方。 最近刚好看到一篇文章汇总了非常多的聚合函数,就摘录在下方,供许多初入竞赛的朋友参考。 聚合特征汇总 pandas自带的聚合函数 * 其它重要聚合函数 其它重要聚合函数&分类分别如下。 def median(x):     return np.median(x) def variation_coefficient(x):     mean = np.mean(x)     if mean != 0:         return np.std(x) / mean     else:         return np.nan def variance(x):     return

By Ne0inhk
90w,确实可以封神了!

90w,确实可以封神了!

要说24年一定最热的技术,还得是AIGC! 前段时间阿里旗下的开源项目,登上GitHub热榜! AI大热,如今ChatGPT的优异表现,必然会出现各种细分场景应用的工具软件,和大量岗位项目! 山雨欲来风满楼,强人工智能的出现,所有科技公司已经开始巨量扩招此领域的人才。算法的岗位,近三个月已经增长68%!这件事在HR届也是相当震撼的。 目前各行各业都不景气的市场,人工智能岗位却一直保持常青!甚至同属AI边缘岗都比其他岗薪资高40%! 与此同时,AI算法岗上岸也不简单,竞争激烈,好公司核心岗位不用说,谁都想去。 所以事实就是,想要上岸,门槛也逐渐变高,项目经历、实习经历都很重要,越早明白这个道理就越能提前建立起自己的优势。 但我在b站逛知识区的时候,经常看到有些同学,因为一些客观原因导致无法参加实习,这种情况下,如果你想提升背景,增加项目经历的话,可以试试这个《CV/NLP 算法工程师培养计划》。 目前已经有上千位同学通过该计划拿到offer了,最新一期学员就业薪资最高能拿到78K!年薪94w! 优势就是有BAT大厂讲师带领,手把手带做AI真实企业项目(包含CV、NLP等

By Ne0inhk
再见nohup!试试这个神器,Python Supervisor!

再见nohup!试试这个神器,Python Supervisor!

👇我的小册 45章教程:() ,原价299,限时特价2杯咖啡,满100人涨10元。 作者丨Ais137 https://juejin.cn/post/7354406980784373798 1. 概述 Supervisor 是一个 C/S 架构的进程监控与管理工具,本文主要介绍其基本用法和部分高级特性,用于解决部署持久化进程的稳定性问题。 2. 问题场景 在实际的工作中,往往会有部署持久化进程的需求,比如接口服务进程,又或者是消费者进程等。这类进程通常是作为后台进程持久化运行的。 一般的部署方法是通过 nohup cmd & 命令来部署。但是这种方式有个弊端是在某些情况下无法保证目标进程的稳定性运行,有的时候 nohup 运行的后台任务会因为未知原因中断,从而导致服务或者消费中断,进而影响项目的正常运行。 为了解决上述问题,通过引入 Supervisor 来部署持久化进程,提高系统运行的稳定性。 3. Supervisor 简介 Supervisor is a client/

By Ne0inhk
第一本给程序员看的AI Agent图书上市了!

第一本给程序员看的AI Agent图书上市了!

AI Agent火爆到什么程度? OpenAI创始人奥特曼预测,未来各行各业,每一个人都可以拥有一个AI Agent;比尔·盖茨在2023年层预言:AI Agent将彻底改变人机交互方式,并颠覆整个软件行业;吴恩达教授在AI Ascent 2024演讲中高赞:AI Agent是一个令人兴奋的趋势,所有从事AI开发的人都应该关注。而国内的各科技巨头也纷纷布局AI Agent平台,如:钉钉的AI PaaS、百度智能云千帆大模型平台等等。 Agent 是未来最重要的智能化工具。对于程序员来说,是时候将目光转向大模型的应用开发了,率先抢占AI的下一个风口AI Agent。 小异带来一本新书《大模型应用开发 动手做 AI Agent》,这本书由《GPT图解》的作者黄佳老师创作,从0到1手把手教你做AI Agent。现在下单享受5折特惠! ▼点击下方,即可5折起购书 有这样一本秘籍在手,程序员们这下放心了吧,让我们先来揭开 Agent 的神秘面纱。 AI Agent 面面观

By Ne0inhk