Ovis: 结构化嵌入对齐用于多模态大语言模型
Abstract
当前的多模态大型语言模型(MLLMs)通常通过连接器(如多层感知机)将预训练的语言模型与另一种预训练的视觉变换器集成,从而赋予语言模型视觉能力。然而,这种集成存在挑战,因为 MLLM 中的两种嵌入策略——基于嵌入查找表的结构化文本嵌入与视觉编码器直接生成的连续嵌入之间存在不一致。
本文提出了 Ovis,这是一种新颖的 MLLM 架构,旨在结构上对齐视觉和文本嵌入。Ovis 在视觉编码过程中的嵌入中集成了一个额外的可学习视觉嵌入表。为了捕捉丰富的视觉语义,每个图像块会多次索引视觉嵌入表,从而生成一个最终的视觉嵌入,该嵌入是所索引嵌入的概率组合。这种结构化方法与生成文本嵌入的方法相似。
对多种多模态基准的实证评估表明,Ovis 在同等参数规模的开源 MLLM 中表现优异,甚至在整体性能上超过了专有模型 Qwen-VL-Plus。这些结果凸显了 Ovis 结构化视觉表示在推动 MLLM 架构设计和促进更有效的多模态学习中的潜力。
Instruction
大型语言模型(LLMs)的发展正在迅速推进,照亮了通向人工通用智能(AGI)的道路。这些复杂的模型在理解和生成文本方面表现出色。然而,要接近人类智能的复杂性和多样性,LLMs 必须超越单纯的文本理解。解读和理解视觉信息的能力成为通往 AGI 过程中一个关键特征。因此,开发多模态大型语言模型(MLLMs)的兴趣激增——这些模型融合了语言理解和视觉感知的力量。
当前的开源多模态大型语言模型(MLLMs)并不是直接训练整个模型,而是主要依赖于预训练的语言模型和预训练的视觉编码器来获取视觉能力。视觉和文本组件采用不同的标记化和嵌入策略。文本嵌入通过 LLM 的嵌入查找表进行索引,每个'单词'通过独热编码的文本标记映射到一个嵌入。相比之下,视觉嵌入则由视觉编码器以非结构化方式直接生成。为了对齐这两种嵌入的维度,交叉模态连接器(如多层感知机)将嵌入投影到一个联合空间,使所有嵌入都能作为 LLM 的输入。
尽管这种架构仅对齐视觉和文本嵌入的维度,但在各种视觉语言任务中表现出色。然而,标记化和嵌入策略之间的固有差异可能导致基于连接器的架构存在潜在局限,因此一个直观的问题是'如果我们以结构化的方式生成视觉嵌入,使其与大型语言模型(LLMs)的文本嵌入策略相匹配,是否能在多模态大型语言模型(MLLMs)中实现进一步的改进?'
本文提出了一种新颖的多模态大型语言模型架构,称为'Ovis',该架构借鉴了大型语言模型(LLMs)的理念,以建立视觉输入的结构化嵌入。如图 1 所示,Ovis 引入了一个额外的可学习视觉嵌入查找表,以转换连续的视觉标记,从而与其文本对应物的结构完整性相匹配。
具体而言,Ovis 集成了一个视觉嵌入表,其行对应于独特的视觉词,代表不同的视觉模式。给定由视觉编码器输出的视觉块的连续标记,Ovis 首先将该标记映射为一个概率标记,揭示其在整个视觉词汇集中的相似性。概率标记捕捉了单个视觉块中的丰富语义,该视觉块可能包含多个视觉词的模式,从而有效地将视觉标记视为根据分布从视觉嵌入表中采样的结果。随后,Ovis 根据概率标记多次索引视觉嵌入表,生成一个最终的视觉嵌入,该嵌入是所索引嵌入的组合,即对整个嵌入表的嵌入期望。因此,Ovis 将视觉嵌入策略与其文本对应物的结构化特性对齐。
视觉嵌入表的优化以及生成概率标记的参数对多模态大型语言模型(MLLM)的性能具有显著影响。与之前的方法(如使用带有向量量化的自动编码器处理图像和各种其他损失)不同,Ovis 利用联合文本生成损失,并采用三阶段的方式优化参数。这一学习过程避免了因缺乏文本指导而导致在视觉语言任务中表现不佳的风险。
作者使用开源视觉 Transformer 和大型语言模型作为基础实现了 Ovis,并在多种多模态基准上评估其性能。结果表明,Ovis 在大多数基准测试中优于同一参数等级的流行开源多模态大型语言模型。具体而言,Ovis-8B 在竞争对手中表现出显著优势,而 Ovis-14B 在比较的开源 MLLM 中始终保持领先。令人印象深刻的是,Ovis-14B 的整体表现也超过了高资源专有模型 Qwen-VL-Plus,并且在通用多模态基准 MMStar 和 MMBench 以及多个专业多模态基准(包括 MathVista、HallusionBench 和 RealWorldQA)中,其性能甚至与更强的专有模型 Qwen-VL-Max 相当。
Related Work
Large Language Models
近年来,大型语言模型(LLMs)的发展显著推动了自然语言处理领域的进步。GPT-3 的问世标志着性能的显著提升,尤其是在少样本和零样本学习场景中,突显了 LLMs 的巨大潜力。这一潜力在 ChatGPT、GPT-4、Gemini 和 Claude 等后续模型中得到了进一步验证。与此同时,开源模型也在迅速演变,包括 LLaMA 系列、Vicuna、Baichuan、Qwen、Mistral 和 Yi。值得注意的是,开源模型 Llama3 和 Mistral-MOE 在某些情况下已接近甚至超过了闭源模型的性能。尽管取得了这些进展,LLMs 本质上缺乏处理或解读多模态数据的能力,这限制了它们在需要理解不仅仅是文本信息的场景中的应用。
Multimodal Large Language Models
多模态大型语言模型(MLLMs)通过不仅理解和生成文本,还能解释和关联视觉元素与文本描述,增强了 LLMs 的能力。大多数开源 MLLM 由几个组件组成,即视觉编码器、连接器和 LLM。连接器的类型大致可分为三类:
- 基于交叉注意力的方法在 LLM 内隔离和整合视觉和文本模态,例如 Flamingo 和 CogVLM 模型。


