VL-JEPA:视觉语言联合嵌入预测架构

1. 概述
不再是学习 Y 和 Yhat,而是 $S_Y$ 和 $\hat{S}_Y$。思路跟 Stable Diffusion 一样,不在真实 Y 空间学习,而是在 Y 编码之后的隐空间学习。所以维度更低,效果更好。
2. 方法论
我们提出了 VL-JEPA(图 1),这是一种用于视觉语言任务的具有联合嵌入预测架构 (JEPA) 的模型。VL-JEPA 使用三元组 $(X_V, X_Q, Y)$ 进行训练,其中 $X_V$ 表示视觉输入(单个图像或视频帧序列),$X_Q$ 是文本查询(即问题),$Y$ 是文本目标(即答案)要预测。VL-JEPA 由四个组件组成:
- X-Encoder ($X_V \mapsto S_V$):将大量视觉输入压缩为紧凑的视觉嵌入——类似于经典 VLM 中的'视觉标记'的连续向量序列。
- 预测器 ($\langle S_V, X_Q \rangle \mapsto \hat{S}_Y$):是 VL-JEPA 的核心组件。它将视觉嵌入映射到目标嵌入的预测,并以文本查询作为条件。
- Y-Encoder ($Y \mapsto S_Y$):将文本目标嵌入到连续的潜在空间中作为预测目标。目标嵌入有望抽象出与任务无关的信息。
- Y-Decoder ($\hat{S}_Y \mapsto \hat{Y}$):在 VL-JEPA 的主要训练阶段不参与。在推理时,它会在必要时将预测的嵌入转换为人类可读的文本。
对于 X-Encoder,我们选择了 V-JEPA 2 (Assran 等人,2025),这是一个视觉 Transformer,它输出一系列视觉标记,然后将其投影并输入到使用 Llama 3 Transformer 层初始化的 Predictor 中。查询调节是通过标记化和嵌入文本查询并将生成的文本标记嵌入与视觉嵌入一起输入到 Predictor 中来实现的。Llama 3 Transformer 层的输出被池化并投影到由 EmbeddingGemma-300M (Vera 等人,2025) 初始化的 Y-Encoder 生成的目标嵌入空间中。
训练目标
JEPA 模型通常联合优化两个目标:1) 嵌入空间中的预测误差,2) 避免表示崩溃的额外正则化 (Bardes 等人,2021;Balestriero 和 LeCun,2025)。任何实现这两个属性的损失都可以应用于 VL-JEPA。或者,正则化项可以用其他防崩溃策略代替,例如对 Y-Encoder (Assran 等人,2025) 使用指数移动平均 (EMA) 或冻结 Y-Encoder (Zhou 等人,2025)。
在这项工作中,由于 InfoNCE 损失 (Radford 等人,2021) 由于其在视觉语言领域的成熟度,我们采用了它。更先进的非样本对比正则化,例如 VICReg (Bardes 等人,2021) 和 SIGReg (Balestriero and LeCun, 2025) 也可以应用,但我们将探索留给未来的工作。InfoNCE 损失可以在数学上分为 (Wang 和 Isola,2020):1) 表示对齐项,它最小化归一化预测和目标嵌入之间的距离;2) 均匀性正则化项,将批次中的嵌入彼此分开,从而避免表示崩溃。我们使用双向 InfoNCE 损失联合训练预测器和 Y 编码器,使它们能够相互学习。
与生成式 VLM 使用的标记空间损失相比,由于简化的目标分布,计算嵌入空间中的训练损失是有益的。具体来说,许多现实世界的预测任务本质上是不适定的:对于相同的输入 $X$,可能存在多个都可以接受的合理目标 $Y$。例如,假设查询'如果我向下扳动灯开关,会发生什么?','灯已关闭'和'房间将变暗'都是有效答案。然而,在原始的独热 Token 空间中,两个序列是正交的,因为它们不共享重叠的 Token。但是,当 VL-JEPA 的 Y-Encoder 将它们嵌入到附近的点(理想情况下产生紧凑的单峰分布)时,学习任务变得更加容易:模型不再需要在稀疏标记空间中拟合多个不相交的高密度区域,而只需要在连续嵌入空间中拟合单个相干模式。
多任务处理
VL-JEPA 使用单一、统一架构支持多种任务(图 2)。对于视觉文本到文本生成任务,例如字幕或开放式 VQA,查询 $X_Q$ 是字幕提示或问题,预测器学习预测目标输出 $\hat{S}_Y$ 的嵌入,然后将其解码为文本。VL-JEPA 还支持 CLIP 式开放词汇分类和判别性 VQA,其中候选标签文本被编码到嵌入中,并与预测 $\hat{S}_Y$ 进行比较以选择最接近的匹配。对于文本到视频检索,使用检索字幕提示将候选视频映射到其预测嵌入 $\hat{S}_Y$,然后根据与编码的文本检索查询的相似性进行排名。
选择性解码
现实世界的视频应用通常需要在线流式推理,例如跟踪智能眼镜中的用户操作以提供程序协助 (Chen 等人,2024c),监控世界状态以进行在线规划、导航和机器人 (Shukor 等人,2025;Black 等人,2025;Song 等人,2025)。一个核心挑战是平衡两个相互竞争的需求:模型必须在新帧到达时不断更新语义,但计算效率和延迟至关重要。

