华为推出多模态 Eve 模型:性能超越 DeepSeek 与 LLaVA-1.5-7B
摘要
多模态视觉语言模型(VLMs)在模型规模和数据量不断增加的支持下取得了显著进展,但在边缘设备上运行 VLMs 对其广泛应用构成了挑战。已有一些高效 VLM 的研究,但它们往往为增强多模态能力而牺牲语言能力,或需要大量训练。为解决这一困境,本文引入了具有弹性视觉专家的高效视觉语言模型(Eve)这一创新框架。通过在训练的多个阶段巧妙整合适应性视觉专业知识,Eve 在保持语言能力和增强多模态能力之间取得了平衡。这种平衡的方法产生了一个仅含 18 亿参数的通用模型,在多模态和语言任务中都有显著改进。值得注意的是,在 30 亿参数以下的配置中,Eve 在语言基准测试中表现突出,并在 VLM 基准测试中达到了 68.87% 的最先进结果。此外,其多模态准确性超过了更大的 70 亿参数的 LLaVA-1.5 模型。
背景
随着人工智能的迅速发展,视觉和语言的理解备受关注,成为重要的研究焦点。多模态模型如视觉语言模型(VLMs)旨在结合视觉信息和文本描述,以增强语义理解。现有的大多数 VLMs 主要通过扩大数据量或增加模型尺寸来增强多模态能力,这使得模型规模庞大,难以在设备上部署和高效推理,阻碍了其实际应用。
为开发高效的 VLMs,虽有方法提出,但这些方法常以牺牲语言能力为代价增强多模态能力,或大幅增加训练成本。例如,传统的混合专家模型(MoE)虽然能提升容量,但往往导致语言任务的精度下降。因此,如何在有限的计算资源下,同时优化多模态感知能力和自然语言处理能力,是当前学术界和工业界共同面临的难题。Eve 模型的提出正是为了应对这一挑战,通过架构创新实现效率与性能的平衡。
贡献
本文提出了弹性视觉专家(Eve)框架,精心设计了三个训练阶段,并在每个阶段巧妙融入动态自适应视觉专家,使每个专家专注于特定领域任务,在训练过程中整合专家的最佳性能以增强多模态能力,同时保持固有的语言能力。
弹性视觉专家,包括弹性视觉编码器(EVE)和弹性视觉前馈网络(EVF),具有出色的适应性。在前两个训练阶段,视觉编码器保持冻结,便于与各种视觉编码器无缝集成,同时保持语言模型的性能。在第三阶段,引入 EVF,与模型的语言能力相结合,产生强大的协同作用,显著提高了模型处理和融合视觉和文本数据的能力,从而大幅增强其多模态性能。
Eve 在参数少于 30 亿的多模态任务中表现出色,在 VLM 和语言基准测试中达到顶尖性能,在多模态准确性方面与 70 亿参数的 LLaVA - 1.5 模型相当。这一成果证明了小参数模型通过架构优化同样可以达到甚至超越大参数模型的效果,为边缘侧 AI 部署提供了新的思路。
技术方案
4.1 概述
Eve 采用了复杂的三阶段框架,在每个阶段都战略性地集成了弹性视觉专家。在训练过程中,前两个阶段视觉编码器的预训练数据变化不会影响模型的语言能力。在后期训练中,在第三阶段引入新的弹性视觉前馈网络(FFN)来增强模型处理多模态数据的能力,同时保持语言任务的熟练度。这种分阶段的训练策略允许模型逐步适应多模态信息,避免了直接端到端训练可能带来的灾难性遗忘问题。
4.2 弹性视觉编码器
基于现有的基础视觉模型如 ResNet 和 ViT 提出弹性视觉编码器。在训练的前两个阶段,视觉编码器从 RGB 图像中提取特征并转换为视觉嵌入序列,视觉适配器被持续训练以将视觉特征与语言模型的特征空间对齐。而语言模型在第二阶段仅进行轻微的基于 LoRA 的微调,且视觉编码器保持冻结以支持不同的视觉骨干模型。
本文使用 ResNet-50 作为视觉编码器,并在 ImageNet-1K、ImageNet-22K 和 LAION400M 数据集上进行训练。结果表明在 ImageNet-22K 上训练的模型在 VLM 基准测试中精度最高,且不同数据集训练的视觉编码器对模型语言能力影响较小。这一发现提示我们在构建多模态系统时,应优先选择大规模预训练数据来初始化视觉部分,以保证特征的泛化能力。
4.3 弹性视觉 FFN
在第三阶段受 MoE-LLaVA 启发引入弹性视觉前馈网络(EVF)。EVF 层包含路由机制、令牌分配策略以及两个分别用于语言处理和视觉信息的前馈网络(FFNs)。在 LLM 前向传播中,图像和文本 tokens 经处理后共同输入 LLM,路由层首先为每个 token 推荐一个 FFN,token 分配机制再综合考虑路由层建议和 FFN 容量决定 tokens 分配。
路由机制使用线性层计算将每个 token 分配到相应 FFN 的概率。公式逻辑为利用轻量级可训练参数计算概率分布,其中对应语言 FFN,对应视觉 FFN。在第三阶段初始化时,将第二阶段的 FFN 参数复制到语言和视觉 FFNs 中,训练时冻结视觉编码器、视觉适配器和语言模型的大部分参数,仅训练视觉 FFN 和语言模型中的路由层。这种参数高效微调(PEFT)方式大大降低了训练成本。
在多模态任务推理阶段,EVF 层的两个 FFNs 都被激活,而在语言任务中,仅保留语言 FFN。这种动态激活机制确保了模型在不同任务场景下的资源利用率最大化。
Token 分配。对确定每个 token 分配到哪个 FFN 至关重要。在 EVF 层中,每个 FFN 有预定义容量,传统分配机制若推荐令牌数超容量会随机丢弃部分令牌。本文引入 GBPR 策略,根据路由分数优先分配重要令牌,进一步提出 Img-GBPR 机制区分管理视觉和文本 token,为每种 token 类型指定默认推荐 FFN,并根据模态优化 token 分配,最终优先级分数计算公式考虑了路由分数和模态偏好。当分配给 FFN 的令牌数超容量时,优先选择基于最重要个 token 分配,剩余令牌重新分配,一定比例随机分配到另一个 FFN 以减少 token 损失。
平衡损失:借鉴 MoE-LLaVA,整体损失函数由回归损失和辅助损失组成。本文调整辅助损失系数为 0.001,并在每个 EVF 层集成可微负载平衡损失,其中和分别表示视觉和语言 FFN 处理的令牌比例,和表示视觉和语言 FFN 的平均路由概率,以促进 FFN 间令牌处理的公平分配。这有效防止了某些专家过载而其他专家闲置的情况,提升了整体训练稳定性。
实验结果
模型细节与训练设置
Eve 由视觉适配器、视觉编码器和语言模型三个核心组件构成。视觉适配器基于轻量化下采样投影仪(LDP),视觉编码器采用 SigLip-L,语言模型为 PanGu-π-1.5B-Pro。在训练阶段第一阶段冻结视觉编码器和 LLM 仅训练视觉适配器;第二阶段使用 LoRA 技术微调视觉适配器和 LLM;第三阶段仅训练视觉 FFN 并为每个 FFN 设置容量,训练数据集在前两阶段使用 CC-595K 和 LLaVA - mixed - 665;第三阶段精心挑选了涵盖多领域的超过 320 万个样本的数据集。
消融研究
弹性视觉 FFN 层的影响:在第三阶段,比较 EVF 和 MoE 层在多模态和语言任务上的性能差异,结果显示 MoE 层虽使多模态任务精度提高 0.55%,但语言任务精度显著降低 3%,而 EVF 层架构在提高多模态任务精度 0.47% 的同时完全保留了语言任务精度。这表明针对模态特性设计的专家网络比通用 MoE 更适合多模态场景。
Token 分配的影响:对比了随机、GBPR 和 Img-GBPR 三种 token 分配方法对训练的影响,可视化结果表明 Img-GBPR 在各层的令牌成功率提升最显著。实验结果显示 GBPR 比随机分配方法平均精度提高 0.4 个百分点,Img-GBPR 进一步提高 0.5%。这验证了区分模态进行路由优化的必要性。
最佳结果的消融研究:通过在方法、模型和训练数据集三个维度进行消融实验,结果表明用 PanGu-π-1.5B 替换语言模型、引入 EVF 层和 Img-GBPR、将视觉编码器升级为 SigLIP-L、用 PanGu-π-1.5B-Pro 替换语言模型以及使用第三阶段数据集分别都能提高模型精度,最终达到 68.87% 的峰值精度。
与 SOTA 方法比较
在少于 30 亿激活参数的模型中,Eve 达到了 68.87% 的最佳精度。与相似参数规模的模型相比,Eve 比 DeepSeek-VL 性能高 1.9% 且训练效率更高,仅需 15 GPU 天。甚至超过了一些 70 亿参数的模型如 LLaVA-1.5,在保持语言任务能力方面也明显优于现有参数少于 30 亿的 VLM。
这一对比结果突显了 Eve 在参数量压缩方面的优势。对于资源受限的边缘设备而言,这意味着可以在不牺牲太多性能的前提下,实现更快速的推理速度和更低的内存占用。这对于移动端应用、物联网设备以及实时视频分析场景具有重要的工程价值。
结论与展望
本文引入了高效的 VLM 框架 Eve,其在各个阶段嵌入弹性视觉专家,并且自适应令牌分配机制增强了模型有效处理多模态信息的能力。因此,该模型不仅保留了语言能力,还显著提高了多模态性能。
Eve 的成功表明,通过精细化的架构设计和分阶段训练策略,可以有效解决多模态模型在效率和性能之间的权衡问题。未来的工作可以进一步探索更细粒度的专家划分,或者将此类弹性机制应用于更大规模的基座模型中。此外,针对特定垂直领域的微调也是值得研究的方向,例如医疗影像分析或自动驾驶场景下的视觉理解。随着硬件算力的不断演进,Eve 所代表的轻量化多模态架构有望成为下一代智能终端的核心技术之一。
通过本研究,我们展示了在有限参数预算下实现高性能多模态理解的可行性,为后续相关研究提供了宝贵的参考数据和实践经验。