Ex-MCR:一种参数高效的通用多模态统一表征构建范式
引言
多模态对比表征(Multi-modal Contrastive Representations)学习的核心目标是在共享的表征空间内对齐来自不同模态的输入数据。经典的'双塔模型'通过两个独立的编码器将原始数据提取为表征向量,并利用对比学习损失进行语义对齐。
近年来,三种以上模态的高质量对比表征越来越受到关注,并在多模态理解和生成的许多应用场景中发挥着基础作用。然而,现有的主流方法高度依赖于大规模、高质量的配对数据,以及昂贵的训练成本,这限制了它们的进一步发展和应用。此外,随着模态数量的增加,数据准备和模型训练的成本显著上升,使得构建一个统一的多模态表征空间变得尤为困难。
最近,论文 C-MCR(Connecting Multi-model Contrastive Representations)引入了一种新的训练效率方法,用于通过从现有语义对齐空间中挖掘知识来学习缺乏配对数据的模态之间的对比表征。它通过重叠的模态将两个预训练的表征空间映射到一个新的共享空间。由于预训练空间的模态本质上是对齐的,从重叠模态中学习到的连接也可以转移到非重叠模态中。在实验中,即使不使用原始的图像 - 音频和 3D-文本数据对,C-MCR 在图像 - 音频任务中也能达到领先的性能。
然而,C-MCR 主要侧重于学习两个非重叠模态之间的新空间,并不适合构建统一的表征空间,尤其是包括三个以上模态的空间。由于遗忘了强大的原始预训练空间中的模态对齐性,在进行更多模态的级联整合时,C-MCR 的性能将会显著下降。
Ex-MCR(Extending Multi-modal Contrastive Representations) 正是为解决这些挑战而提出的创新方案。

论文背景与动机
论文标题: Extending Multi-modal Contrastive Representations
论文地址: https://arxiv.org/abs/2310.08884
Github 地址: https://github.com/MCR-PEFT/Ex-MCR
通过创新地使用'扩展(Extend)'而不是'连接(Connect)'操作,Ex-MCR 保存了基空间中所有的模态对齐性。同时,针对训练时对表征空间的刻画不充分、训练目标互相干涉、统一空间中模态联系不够紧密的问题,我们在数据、架构和优化目标上均进行了改进。
利用 Ex-MCR,我们可以在极低的训练成本和不使用原始配对数据的情况下灵活地整合多个表征空间来得到统一的表征空间。这一工作不仅为统一表征空间构建提供了新方向,也在跨模态生成和理解的未来应用中展现出巨大潜力。
核心技术设计
为了解决目前在多模态统一表征空间构建上数据对齐性要求高、训练计算量大的挑战,我们提出了一种新的基于'扩展'的学习范式——Ex-MCR。它在模态可扩展性、训练灵活性和模态对齐性的保持上都获得了前所未有的能力。
1. '扩展'代替'连接',保持基空间模态对齐性
对于两个对比学习表征空间,不同于 C-MCR 将两者映射到一个新的表征空间中,Ex-MCR 选取其中一个作为'基空间'而另一个空间作为'叶空间',只将叶空间映射到基空间中。
由于基空间不进行任何映射,其中所有的模态对齐性得到了保留。因此,基空间可以与多个叶空间进行同样的'扩展'操作,使基空间内的模态不断得到扩充,从而构建起多模态统一表征空间。这种机制避免了信息在多次映射过程中的丢失,确保了底层语义的一致性。
2. 多'模态中心'的数据伪对构建,保证不同模态的原生语义信息
C-MCR 使用重叠模态的数据来检索语义相似的其他模态表征,并将这些检索得到的表征视为伪对。然而,事实上我们很难用一种模态完全表示另一种模态,由一种模态检索得到的表征往往忽略了其他模态的一些语义。例如,不发声对象(如蘑菇)的视觉表征很难在音频表征中找到对应,而不可见的物体(如风声)则往往在视觉表征中被其他的对象所干扰。
为了解决上述问题,我们提出了以多种模态为中心的数据检索策略。结合多个模态聚合的语义一致的表征,最终的嵌入可以更全面地反映不同模态各自表征空间的信息,减少单一模态检索带来的偏差。




