可扩展多任务视觉基础模型 LaVin-DiT：融合时空 VAE 与 DiT

综述由AI生成LaVin-DiT 是一个可扩展的多任务视觉基础模型，通过融合空间 - 时间变分自编码器（ST-VAE）与联合扩散 Transformer（J-DiT），解决了传统自回归模型破坏视觉数据空间关系的问题。该模型利用上下文学习机制，无需微调即可适应超过 20 种视觉任务，包括图像和视频处理。实验表明，3.4B 参数模型在前景分割、物体检测、深度估计等任务上达到 SOTA 性能，推理速度较 LVM 提升显著，且具备良好的扩展性和收敛性。

灵魂摆渡发布于 2025/2/6更新于 2026/4/276 浏览

LaVin-DiT Framework Overview

亮点直击

高效处理高维视觉数据 LaVin-DiT 引入空间 - 时间变分自编码器，降低计算需求，同时保留关键空间和时间特征，实现高效视觉数据建模。

创新的联合扩散 Transformer 通过并行去噪生成视觉输出，提升处理效率，减少顺序依赖，并保留视觉任务所需的空间一致性。

强大的任务泛化能力 借助上下文学习机制，无需微调即可适应多种任务，展现卓越的多任务泛化性能。

显著性能与效率提升 在多项基准测试中优于现有模型，推理速度提升 1.7∼2.3 倍，同时表现出良好的扩展性和快速收敛性。

总结速览

解决的问题

当前的大型视觉模型大多直接从自然语言处理架构中改造而来，使用低效的自回归技术，这种方法破坏了视觉数据中至关重要的空间关系，并且在高维度视觉数据的生成任务中表现有限。

提出的方案

空间 - 时间变分自编码器 (spatial-temporal variational autoencoder)
编码高维视觉数据到连续的潜在空间，降低数据维度。

联合扩散 Transformer (joint diffusion transformer)
通过逐步扩散生成视觉输出，优化生成建模能力。

基于上下文学习的统一多任务训练 (in-context learning)
利用输入 - 目标对作为任务上下文，引导扩散 Transformer 在潜在空间中完成特定任务。推理时，通过任务上下文和测试数据实现跨任务的泛化，无需微调。

应用的技术

变分自编码器 (VAE) 技术用于高效编码视觉数据。

扩散模型与 Transformer 的结合，用于逐步生成高质量视觉结果。

上下文学习（in-context learning）机制，支持多任务统一训练和推理。

可扩展性：模型参数从 0.1B 扩展至 3.4B，充分验证了其可扩展性能。

达到的效果

性能提升：支持超过 20+ 视觉任务，多项 SOTA。

统一框架：首次在生成框架中实现大规模、多任务视觉建模。

高效推理：通过上下文学习，在无需微调的情况下实现任务泛化。

开源贡献：计划开放代码和模型，为后续研究提供支持。

LaVin-DiT Architecture

方法

问题设置
计算机视觉包含一系列任务，例如目标检测和全景分割，通常通过为特定输入 - 目标映射设计的专用模型来完成。虽然在单一任务上表现出色，但这种专用性限制了模型在多任务或多样化视觉数据中的适应性和扩展性。为了解决这一局限性，我们旨在设计一个条件生成框架，将多个视觉任务统一到一个模型中。具体而言，给定一个查询（例如，一张图像或一段视频），框架生成对应的预测来逼近目标，条件是有一组输入 - 目标对。这些条件对提供了任务定义和指导，使模型能够根据提供的示例灵活适应不同任务。形式化地，目标是对条件分布进行建模。

框架概述
如下图 2(a) 所示，提出的大型视觉 Diffusion Transformer（LaVin-DiT）框架将空间 - 时间变分自编码器（ST-VAE）与联合扩散 Transformer（J-DiT）结合起来，实现多个视觉任务的统一。给定一个视觉任务，例如全景分割，首先采样一组输入 - 目标对作为任务定义。随后，这组样本和其他视觉示例被输入到 ST-VAE 中，并编码为潜在表示。接着，编码后的表示被分块并展开为序列格式。样本集和输入视觉数据形成条件潜在表示，而目标通过添加随机高斯噪声变为噪声潜在表示。随后，和被输入到联合扩散 Transformer（J-DiT）中，通过去噪恢复清晰的潜在表示，并保持在共享的潜在空间内。最后，恢复的潜在表示通过 ST-VAE 解码器还原为原始像素空间中的目标。