跳到主要内容
极客日志极客日志
首页博客AI提示词GitHub精选代理工具
搜索
|注册
博客列表

目录

  1. 摘要
  2. 背景
  3. 贡献
  4. 技术方案
  5. 4.1 概述
  6. 4.2 弹性视觉编码器
  7. 4.3 弹性视觉 FFN
  8. Token 分配
  9. 平衡损失
  10. 实验结果
  11. 模型细节与训练设置
  12. 消融研究
  13. 弹性视觉 FFN 层的影响
  14. Token 分配的影响
  15. 最佳结果的消融研究
  16. 与 SOTA 方法比较
  17. 结论
  • 💰 8折买阿里云服务器限时8折了解详情
编程语言AI算法

华为 Eve 高效多模态视觉语言模型技术解析

华为诺亚方舟实验室在 AAAI2025 提出 Eve 框架,一种具有弹性视觉专家的高效视觉语言模型。该模型通过三阶段训练整合适应性视觉专业知识,平衡语言能力与多模态能力。Eve 仅含 18 亿参数,在 30 亿参数以下配置中表现突出,VLM 基准测试达 68.87%,超越部分 70 亿参数模型如 LLaVA-1.5。核心创新包括弹性视觉编码器与弹性视觉前馈网络,采用 GBPR 策略优化 Token 分配,显著降低多模态任务损失并保留语言精度。

FlinkHero发布于 2025/2/7更新于 2026/4/201 浏览
华为 Eve 高效多模态视觉语言模型技术解析

摘要

多模态视觉语言模型(VLMs)在模型规模和数据量不断增加的支持下取得了显著进展。然而,在边缘设备上运行 VLMs 对其广泛应用构成了挑战。已有一些高效 VLM 的研究,但它们往往为增强多模态能力而牺牲语言能力,或需要大量训练。

为解决这一困境,本文引入了具有弹性视觉专家的高效视觉语言模型(Eve)这一创新框架。通过在训练的多个阶段巧妙整合适应性视觉专业知识,Eve 在保持语言能力和增强多模态能力之间取得了平衡。这种平衡的方法产生了一个仅含 18 亿参数的通用模型,在多模态和语言任务中都有显著改进。值得注意的是,在 30 亿参数以下的配置中,Eve 在语言基准测试中表现突出,并在 VLM 基准测试中达到了 68.87% 的最先进结果。此外,其多模态准确性超过了更大的 70 亿参数的 LLaVA-1.5 模型。

背景

随着人工智能的迅速发展,视觉和语言的理解备受关注,成为重要的研究焦点。多模态模型如视觉语言模型(VLMs)旨在结合视觉信息和文本描述,以增强语义理解。

现有的大多数 VLMs 主要通过扩大数据量或增加模型尺寸来增强多模态能力,这使得模型规模庞大,难以在设备上部署和高效推理,阻碍了其实际应用。为开发高效的 VLMs,虽有方法提出,但这些方法常以牺牲语言能力为代价增强多模态能力,或大幅增加训练成本。

贡献

本文提出了弹性视觉专家(Eve)框架,精心设计了三个训练阶段,并在每个阶段巧妙融入动态自适应视觉专家,使每个专家专注于特定领域任务,在训练过程中整合专家的最佳性能以增强多模态能力,同时保持固有的语言能力。

弹性视觉专家,包括弹性视觉编码器(EVE)和弹性视觉前馈网络(EVF),具有出色的适应性。在前两个训练阶段,视觉编码器保持冻结,便于与各种视觉编码器无缝集成,同时保持语言模型的性能。在第三阶段,引入 EVF,与模型的语言能力相结合,产生强大的协同作用,显著提高了模型处理和融合视觉和文本数据的能力,从而大幅增强其多模态性能。

Eve 在参数少于 30 亿的多模态任务中表现出色,在 VLM 和语言基准测试中达到顶尖性能,在多模态准确性方面与 70 亿参数的 LLaVA-1.5 模型相当。

技术方案

4.1 概述

Eve 采用了复杂的三阶段框架,在每个阶段都战略性地集成了弹性视觉专家。在训练过程中,前两个阶段视觉编码器的预训练数据变化不会影响模型的语言能力。在后期训练中,在第三阶段引入新的弹性视觉前馈网络(FFN)来增强模型处理多模态数据的能力,同时保持语言任务的熟练度。

4.2 弹性视觉编码器

基于现有的基础视觉模型如 ResNet 和 ViT 提出弹性视觉编码器。在训练的前两个阶段,视觉编码器从 RGB 图像中提取特征并转换为视觉嵌入序列,视觉适配器被持续训练以将视觉特征与语言模型的特征空间对齐。而语言模型在第二阶段仅进行轻微的基于 LoRA 的微调,且视觉编码器保持冻结以支持不同的视觉骨干模型。

本文使用 ResNet-50 作为视觉编码器,并在 ImageNet-1K、ImageNet-22K 和 LAION400M 数据集上进行训练。结果表明在 ImageNet-22K 上训练的模型在 VLM 基准测试中精度最高,且不同数据集训练的视觉编码器对模型语言能力影响较小。

4.3 弹性视觉 FFN

在第三阶段受 MoE-LLaVA 启发引入弹性视觉前馈网络(EVF)。EVF 层包含路由机制、令牌分配策略以及两个分别用于语言处理和视觉信息的前馈网络(FFNs)。

在 LLM 前向传播中,图像和文本 tokens 经处理后共同输入 LLM,路由层首先为每个 token 推荐一个 FFN,token 分配机制再综合考虑路由层建议和 FFN 容量决定 tokens 分配。

路由机制使用线性层计算将每个 token 分配到相应 FFN 的概率。公式如下:

$$P = \frac{\exp(x^T W)}{\sum \exp(x^T W)}$$

其中,$W$ 为轻量级可训练参数,对应语言 FFN,$W_v$ 对应视觉 FFN。

在第三阶段初始化时,将第二阶段的 FFN 参数复制到语言和视觉 FFNs 中,训练时冻结视觉编码器、视觉适配器和语言模型的大部分参数,仅训练视觉 FFN 和语言模型中的路由层。在多模态任务推理阶段,EVF 层的两个 FFNs 都被激活,而在语言任务中,仅保留语言 FFN。

Token 分配

对确定每个 token 分配到哪个 FFN 至关重要。在 EVF 层中,每个 FFN 有预定义容量,传统分配机制若推荐令牌数超容量会随机丢弃部分令牌。本文引入 GBPR 策略,根据路由分数优先分配重要令牌,进一步提出 Img-GBPR 机制区分管理视觉和文本 token,为每种 token 类型指定默认推荐 FFN,并根据模态优化 token 分配,最终优先级分数计算公式为:

$$Score = \alpha \cdot S_{route} + (1 - \alpha) \cdot S_{capacity}$$

当分配给 FFN 的令牌数超容量时,优先选择基于 Score 的最重要个 token 分配,剩余令牌重新分配,一定比例随机分配到另一个 FFN 以减少 token 损失。

平衡损失

借鉴 MoE-LLaVA,整体损失函数由回归损失和辅助损失组成:

$$Loss = Loss_{reg} + \lambda \cdot Loss_{aux}$$

本文调整辅助损失系数为 0.001,并在每个 EVF 层集成可微负载平衡损失:

$$Loss_{balance} = \sum (f_i - \bar{f})^2$$

其中 $f_i$ 和 $f_j$ 分别表示视觉和语言 FFN 处理的令牌比例,$p_i$ 和 $p_j$ 表示视觉和语言 FFN 的平均路由概率,以促进 FFN 间令牌处理的公平分配。

实验结果

模型细节与训练设置

Eve 由视觉适配器、视觉编码器和语言模型三个核心组件构成。视觉适配器基于轻量化下采样投影仪(LDP),视觉编码器采用 SigLip-L,语言模型为 PanGu-π-1.5B-Pro。

在训练阶段:

  • 第一阶段:冻结视觉编码器和 LLM,仅训练视觉适配器。
  • 第二阶段:使用 LoRA 技术微调视觉适配器和 LLM。
  • 第三阶段:仅训练视觉 FFN 并为每个 FFN 设置容量,训练数据集在前两阶段使用 CC-595K 和 LLaVA-mixed-665,第三阶段精心挑选了涵盖多领域的超过 320 万个样本的数据集。

消融研究

弹性视觉 FFN 层的影响

在第三阶段,比较 EVF 和 MoE 层在多模态和语言任务上的性能差异,结果显示 MoE 层虽使多模态任务精度提高 0.55%,但语言任务精度显著降低 3%,而 EVF 层架构在提高多模态任务精度 0.47% 的同时完全保留了语言任务精度。

Token 分配的影响

对比了随机、GBPR 和 Img-GBPR 三种 token 分配方法对训练的影响,可视化结果表明 Img-GBPR 在各层的令牌成功率提升最显著。实验结果显示 GBPR 比随机分配方法平均精度提高 0.4 个百分点,Img-GBPR 进一步提高 0.5%。

最佳结果的消融研究

通过在方法、模型和训练数据集三个维度进行消融实验,结果表明用 PanGu-π-1.5B 替换语言模型、引入 EVF 层和 Img-GBPR、将视觉编码器升级为 SigLIP-L、用 PanGu-π-1.5B-Pro 替换语言模型以及使用第三阶段数据集分别都能提高模型精度,最终达到 68.87% 的峰值精度。

与 SOTA 方法比较

在少于 30 亿激活参数的模型中,Eve 达到了 68.87% 的最佳精度。与相似参数规模的模型相比,Eve 比 DeepSeek-VL 性能高 1.9% 且训练效率更高,仅需 15 GPU 天,甚至超过了一些 70 亿参数的模型如 LLaVA-1.5,在保持语言任务能力方面也明显优于现有参数少于 30 亿的 VLM。

结论

本文引入了高效的 VLM 框架 Eve,其在各个阶段嵌入弹性视觉专家,并且自适应令牌分配机制增强了模型有效处理多模态信息的能力。因此,该模型不仅保留了语言能力,还显著提高了多模态性能。

  • 💰 8折买阿里云服务器限时8折购买
  • 🦞 5分钟部署阿里云小龙虾了解详情
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog

更多推荐文章

查看全部
  • 大模型从零基础入门到精通:核心原理与实战指南
  • DeepSeek 复现狂潮:低成本强化学习实现开源推理
  • DeepSeek R1 开源模型引发全球复现热潮与技术解析
  • RAG 检索增强生成技术原理、优势及应用场景详解
  • 2025 AI 大模型产品经理入门指南:核心职责、技能与实战路线
  • DeepSeek R1 十大核心玩法与本地部署指南
  • 2024 年 RAG 技术重大突破:全年革新与里程碑综述
  • DeepSeek-V3 FP8 量化原理与工程实现
  • 蚂蚁 KAG 开源 AI 知识库框架原理与安装使用教程
  • 大模型应用开发入门:GPT-4 与 ChatGPT 高级技巧实战
  • LangChain 实战指南:9 个典型应用场景
  • 大语言模型:基础架构与前沿技术演进
  • AI 产品经理成长指南:核心技能与进阶路径
  • LLM 大模型产品经理学习指南:从基础理论到实战应用
  • DeepSeek-R1 复现方案:Open-R1 项目实践
  • DeepSeek 本地化部署指南:Ollama 与 VS Code 实战
  • DeepSeek R1 与 GPT 的区别及实战应用技巧
  • 从传统产品经理转型为 AI 产品经理的路径与方法
  • 基于 Chroma 和 Ollama 搭建本地 RAG 应用
  • 微信小程序接入 AI 服务实战:基于 Bmob SDK 实现智能对话

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online

  • Base64 文件转换器

    将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online

  • Markdown转HTML

    将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online