Ovis: 多模态大语言模型的结构化嵌入对齐
Ovis 提出了一种多模态大语言模型架构,旨在通过结构化嵌入对齐解决视觉与文本嵌入不一致的问题。该方法引入可学习的视觉嵌入查找表,将图像块映射为概率标记并索引该表生成最终视觉嵌入,使其与文本嵌入策略保持一致。实验表明,Ovis 在多个多模态基准测试中优于同规模开源模型,部分性能超越专有模型 Qwen-VL-Plus,展现了结构化视觉表示的潜力。

Ovis 提出了一种多模态大语言模型架构,旨在通过结构化嵌入对齐解决视觉与文本嵌入不一致的问题。该方法引入可学习的视觉嵌入查找表,将图像块映射为概率标记并索引该表生成最终视觉嵌入,使其与文本嵌入策略保持一致。实验表明,Ovis 在多个多模态基准测试中优于同规模开源模型,部分性能超越专有模型 Qwen-VL-Plus,展现了结构化视觉表示的潜力。

当前的多模态大型语言模型(MLLMs)通常通过连接器(如多层感知机)将预训练的语言模型与另一种预训练的视觉变换器集成,从而赋予语言模型视觉能力。然而,这种集成存在挑战,因为 MLLM 中的两种嵌入策略——基于嵌入查找表的结构化文本嵌入与视觉编码器直接生成的连续嵌入之间存在不一致。
本文提出了 Ovis,这是一种新颖的 MLLM 架构,旨在结构上对齐视觉和文本嵌入。Ovis 在视觉编码过程中的嵌入中集成了一个额外的可学习视觉嵌入表。为了捕捉丰富的视觉语义,每个图像块会多次索引视觉嵌入表,从而生成一个最终的视觉嵌入,该嵌入是所索引嵌入的概率组合。这种结构化方法与生成文本嵌入的方法相似。
对多种多模态基准的实证评估表明,Ovis 在同等参数规模的开源 MLLM 中表现优异,甚至在整体性能上超过了专有模型 Qwen-VL-Plus。这些结果凸显了 Ovis 结构化视觉表示在推动 MLLM 架构设计和促进更有效的多模态学习中的潜力。
大型语言模型(LLMs)的发展正在迅速推进,照亮了通向人工通用智能(AGI)的道路。这些复杂的模型在理解和生成文本方面表现出色。然而,要接近人类智能的复杂性和多样性,LLMs 必须超越单纯的文本理解。解读和理解视觉信息的能力成为通往 AGI 过程中一个关键特征。因此,开发多模态大型语言模型(MLLMs)的兴趣激增——这些模型融合了语言理解和视觉感知的力量。
当前的开源多模态大型语言模型(MLLMs)并不是直接训练整个模型,而是主要依赖于预训练的语言模型和预训练的视觉编码器来获取视觉能力。视觉和文本组件采用不同的标记化和嵌入策略。文本嵌入通过 LLM 的嵌入查找表进行索引,每个'单词'通过独热编码的文本标记映射到一个嵌入。相比之下,视觉嵌入则由视觉编码器以非结构化方式直接生成。为了对齐这两种嵌入的维度,交叉模态连接器(如多层感知机)将嵌入投影到一个联合空间,使所有嵌入都能作为 LLM 的输入。
尽管这种架构仅对齐视觉和文本嵌入的维度,但在各种视觉语言任务中表现出色。然而,标记化和嵌入策略之间的固有差异可能导致基于连接器的架构存在潜在局限,因此一个直观的问题是'如果我们以结构化的方式生成视觉嵌入,使其与大型语言模型(LLMs)的文本嵌入策略相匹配,是否能在多模态大型语言模型(MLLMs)中实现进一步的改进?'
本文提出了一种新颖的多模态大型语言模型架构,称为'Ovis',该架构借鉴了大型语言模型(LLMs)的理念,以建立视觉输入的结构化嵌入。如图 1 所示,Ovis 引入了一个额外的可学习视觉嵌入查找表,以转换连续的视觉标记,从而与其文本对应物的结构完整性相匹配。
具体而言,Ovis 集成了一个视觉嵌入表,其行对应于独特的视觉词,代表不同的视觉模式。给定由视觉编码器输出的视觉块的连续标记,Ovis 首先将该标记映射为一个概率标记,揭示其在整个视觉词汇集中的相似性。概率标记捕捉了单个视觉块中的丰富语义,该视觉块可能包含多个视觉词的模式,从而有效地将视觉标记视为根据分布从视觉嵌入表中采样的结果。随后,Ovis 根据概率标记多次索引视觉嵌入表,生成一个最终的视觉嵌入,该嵌入是所索引嵌入的组合,即对整个嵌入表的嵌入期望。因此,Ovis 将视觉嵌入策略与其文本对应物的结构化特性对齐。
视觉嵌入表的优化以及生成概率标记的参数对多模态大型语言模型(MLLM)的性能具有显著影响。与之前的方法(如使用带有向量量化的自动编码器处理图像和各种其他损失)不同,Ovis 利用联合文本生成损失,并采用三阶段的方式优化参数。这一学习过程避免了因缺乏文本指导而导致在视觉语言任务中表现不佳的风险。
作者使用开源视觉 Transformer 和大型语言模型作为基础实现了 Ovis,并在多种多模态基准上评估其性能。结果表明,Ovis 在大多数基准测试中优于同一参数等级的流行开源多模态大型语言模型。具体而言,Ovis-8B 在竞争对手中表现出显著优势,而 Ovis-14B 在比较的开源 MLLM 中始终保持领先。令人印象深刻的是,Ovis-14B 的整体表现也超过了高资源专有模型 Qwen-VL-Plus,并且在通用多模态基准 MMStar 和 MMBench 以及多个专业多模态基准(包括 MathVista、HallusionBench 和 RealWorldQA)中,其性能甚至与更强的专有模型 Qwen-VL-Max 相当。
近年来,大型语言模型(LLMs)的发展显著推动了自然语言处理领域的进步。GPT-3 的问世标志着性能的显著提升,尤其是在少样本和零样本学习场景中,突显了 LLMs 的巨大潜力。这一潜力在 ChatGPT、GPT-4、Gemini 和 Claude 等后续模型中得到了进一步验证。与此同时,开源模型也在迅速演变,包括 LLaMA 系列、Vicuna、Baichuan、Qwen、Mistral 和 Yi。值得注意的是,开源模型 Llama3 和 Mistral-MOE 在某些情况下已接近甚至超过了闭源模型的性能。尽管取得了这些进展,LLMs 本质上缺乏处理或解读多模态数据的能力,这限制了它们在需要理解不仅仅是文本信息的场景中的应用。
多模态大型语言模型(MLLMs)通过不仅理解和生成文本,还能解释和关联视觉元素与文本描述,增强了 LLMs 的能力。大多数开源 MLLM 由几个组件组成,即视觉编码器、连接器和 LLM。连接器的类型大致可分为三类:
在各种视觉任务中,视觉输入的分词已被广泛探索。VQVAE 通过将视觉输入编码为离散潜变量,结合了变分自编码器和向量量化的原理。这种方法有助于生成高质量和多样化的输出,适用于图像生成和压缩等任务。基于 VQVAE,VQGAN 引入了 PatchGAN 的对抗训练框架,增强了生成图像的真实感。借助类似于 VQVAE 的视觉分词策略,BEIT 在预训练阶段使用离散视觉 tokens。在这个阶段,输入图像的部分区域被屏蔽,模型预测这些屏蔽区域的离散 tokens,类似于 BERT 中的遮蔽语言建模。由于缺乏与语言模态的联合建模,将离散化的视觉 tokens 与 MLLM 结合的研究较少。视觉 tokens 的离散化已经被研究用于将视觉输出与扩散模型的输入联系起来,其中在训练过程中使用额外的重构损失和解码器。一种最近的方法采用线性头层对视觉信息进行分词,这与本文的方法有所不同。具体而言,该方法中的头层仅在蒸馏的方式下基于视觉数据进行训练,而本文则使用来自于视觉语言数据的 LLM 反向传播的梯度来优化视觉头层。此外,提出学习一个专门针对视觉信息的独特视觉嵌入表,而不是像前人那样直接使用 LLM 的文本嵌入表来检索视觉 tokens 的嵌入。
在本节中,首先回顾了 MLLM 中视觉和文本嵌入策略的差异。接着,介绍本文提出的架构 Ovis,该架构在 LLM 中结合了用于概率令牌的线性映射和额外的视觉嵌入查找表。
[图:视觉与文本 Token 对比]
为了激发 MLLM 的潜力,在图像和文本之间对齐内部分词策略,而不是在方程 1 中使用连续视觉 tokens。 [图:概率视觉 Token 示意图]
[图:视觉嵌入表结构]
视觉嵌入和文本嵌入结合在一起作为 LLM 的输入。特别地,输入以下多模态嵌入序列: [图:训练输入序列示例]
在本节中,提供实证结果,以展示所提出的 MLLM 架构 Ovis 的有效性。
实现细节: Ovis 包含三个配置:LLM 模块、ViT 骨干网络和视觉词汇表大小。将流行的开源 LLM(Qwen1.5-Chat 和 Llama3-Instruct)和 ViT(Clip-ViT-L/14@336px)集成到 Ovis 中。视觉词汇表的大小设定为 2^{17} = 131072,这一数值与 LLM 的文本词汇表大小相当。为了促进社区使用和未来的创新,Ovis 架构及其训练代码基于广泛使用的 Transformers 和 DeepSpeed 包构建。在表 4 中详细列出了每个阶段的训练超参数。
训练数据集: Ovis 主要在开源数据集上进行训练,辅以少量内部数据集。所使用的数据集可以分为三类:视觉描述、视觉描述和多模态指令,分别用于训练过程的第一、第二和第三阶段。视觉描述数据集是根据图像与其描述之间的相似性从 COYO 数据集中提取的。作者利用 COYO 数据集中提供的'clip-similarity-vitb32'和'clip-similarity-vitl14'得分来实现这一目的。具体而言,从 COYO 数据集中选择所有相似性指标均超过 0.36 的条目。视觉描述数据集和多模态指令数据集均转换为与 LLaVA-Finetune 相同的格式。训练数据集的统计信息在表 5 中报告。
在多种基准上评估 Ovis,涵盖了一般多模态能力基准(MMMU、MMBench-EN、MMBench-CN 和 MMStar),以及更专业的多模态任务基准(MathVista-Mini、MME、HallusionBench 和 RealWorldQA)。评估使用 VLMEvalKit 包进行。Ovis 与流行的开源 MLLM 和领先的专有模型在基准性能上的比较总结在表 1 和表 2 中,所比较模型的基准得分主要来自 VLMEvalKit,以保持一致性。
可以看出,Ovis-8B 在大多数基准测试中优于同类大小的开源模型。Ovis-14B 不仅在所有基准中表现出色,还在大多数基准中超越了高资源的专有模型 Qwen-VL-Plus。在视觉不可或缺的多模态基准 MMStar 中,Ovis-8B 在与比较的开源 MLLMs 的较量中表现出明显优势,突显了其利用视觉信息的能力。Ovis 在极具挑战性的大学级别 MMMU 基准中也取得了领先结果,展示了强大的视觉理解和推理能力。MMBench-EN 和 MMBench-CN 基准仅在语言上有所不同。尽管 Ovis 的训练数据集中包含的非英语样本很少,但 Ovis 在两个版本中均表现良好。Ovis-14B 在 MMBench-EN 和 MMBench-CN 中的表现始终出色,这表明 Ovis 在多模态能力上的优势不仅限于英语,还能够扩展到中文等其他语言。
专注于专业的多模态基准测试,作者发现 Ovis 在数学和逻辑推理方面的多模态能力优于开源竞争对手,这在 MathVista-Mini 基准测试中得到了显著体现。尽管 Ovis 仅采用了 336px 的 ViT 主干,并未使用 LLaVA-Next 中的动态高分辨率等高分辨率增强技术,也未配备 Mini-Gemini-HD 中的双视觉编码器,Ovis 在包含高分辨率图像(如 1080P)的真实世界视觉任务的 RealWorldQA 基准测试中表现令人印象深刻。值得注意的是,Ovis-14B 在 RealWorldQA 中的得分甚至高于领先的专有模型 GPT4V,展示了其在解决实际视觉任务中的出色多模态能力。在 MME 和幻觉基准测试中,Ovis-8B 和 Ovis-14B 分别在 7B 和 14B 层级中表现最佳。这表明 Ovis 强大的视觉理解和推理能力伴随着较低的幻觉率,这在医学等关键场景中应用 MLLM 时是一个非常理想的特性。
为了进一步阐明 Ovis 架构设计的优势,作者对 Ovis-7B 与一个基于连接器的 MLLM 进行了比较实验,该模型采用与 Ovis-7B 相同的 LLM 和 ViT 主干。作者将连接器实现为一个带有 GELU 激活函数的两层 MLP。MLP 的隐藏层大小配置为与 Ovis-7B 的视觉词汇大小相匹配,以确保连接器基于的 MLLM 和 Ovis-7B 在参数数量上相当。在与 Ovis-7B 相同的数据集上训练该连接器基于的 MLLM。实验结果汇总在表 3 中。值得注意的是,Ovis 在所有基准评估中始终优于基于连接器的架构,平均实现了 8.8% 的性能提升。考虑到相同的参数数量、主干和训练数据集,这些结果有力地支持了 Ovis 架构设计的有效性。
作者强调了在 MLLM 中结构性对齐视觉嵌入与文本嵌入的必要性,考虑到它们在标记化和嵌入策略上的不同。在 Ovis 中,引入了一个额外的视觉嵌入查找表。图像块被映射为概率性标记,这些标记然后索引视觉嵌入表,并以类似于文本嵌入的结构方式进行转换。通过各种多模态基准的实证评估验证了 Ovis 的有效性,结果表明它在相似参数规模的开源 MLLM 和专有模型 Qwen-VL-Plus 中表现优异。
作为一种强大的多模态大语言模型架构,Ovis 有潜力通过增强视觉内容与文本分析之间的交互,惠及广泛的用户。然而,必须承认 Ovis 可能带来的负面影响,例如幻觉风险,即 Ovis 可能生成误导性或不正确信息,可能导致虚假信息的传播。此外,Ovis 也存在偏见和潜在的危害,这是生成模型中常见的问题。这些潜在的不利影响可以通过内容审查机制和透明的模型开发来减轻。
尽管 Ovis 展示了良好的性能,但在处理高分辨率图像的视觉任务时,其效果有限,因为缺乏高分辨率增强技术。此外,Ovis 仅使用单图像样本进行训练,这在面对需要跨多个图像进行视觉理解的场景时会带来挑战。大量研究工作已致力于这些领域,主要是在基于连接器的框架内。从这些研究中汲取灵感,计划在未来版本中增强 Ovis 的能力,以更好地处理高分辨率图像和多图像输入。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online