
在 2024 中关村论坛年会上,由清华大学团队支持的生数科技正式推出了中国首个对标 Sora 的视频生成大模型 Vidu。该模型的横空出世被视为国产视频生成领域的重要里程碑。
尽管目前 Vidu 支持的视频时长为 16 秒,尚未达到 Sora 的 60 秒级水平,但从其宣传视频来看,Vidu 在时空一致性、物理规律遵循以及多镜头切换等关键能力上已展现出极高的水准,对 Sora 形成了有力的竞争态势。
背靠清华科研团队,提出全球首个 Diffusion + Transformer 架构 U-ViT
抛开视频生成的最终质量不谈,Vidu 背后的技术架构更值得深入探讨。研究发现,Vidu 所采用的核心架构 U-ViT 与 Sora 的核心架构 Diffusion Transformer(DiT)在本质上完全一致,且 U-ViT 的发表时间早于 DiT。
生数科技成立于 2023 年 3 月,但其创业团队早在 2022 年 9 月就发布了基于 Transformer 架构的底层统一网络框架 U-ViT。相比之下,Sora 的核心架构 DiT 发布于 2022 年 12 月。这两项工作在架构思路与实验路径上高度趋同,核心思想均在于将 Transformer 与 Diffusion Model(扩散模型)进行深度融合。

论文链接:https://arxiv.org/pdf/2209.12152
清华大学人工智能研究院副院长、生数科技首席科学家朱军教授曾面对 Sora 表示:'虽然 Sora 的出现表明美国在多模态大模型领域具有领先性,但是中国也并非完全从零开始的阶段。'
在 Sora 发布后的三个月内,Vidu 成为世界上唯一突破 Sora 级能力的视频大模型。从 Transformer + Diffusion Model 这一理念构建伊始,Vidu 与 Sora 事实上就在走同一条技术路线。
2023 年 3 月,对标文生图的 Stable Diffusion,生数科技开源了全球首个基于 U-ViT 框架的多模态扩散大模型 UniDiffuser。该模型参数量从最早开源版的 1B 不断扩展至 3B、7B、10B 及以上,参数量和训练数据规模上与 Stable Diffusion 直接对齐,成功完成了 U-ViT 的可扩展性验证。
从 U-Net 到 ViT:扩散模型架构的演进
从 Diffusion Model 的最初网络架构——基于 CNN 的 U-Net 架构出发,与 Sora 的 DiT 一样,U-ViT 的核心思想都在于将基于 CNN 的网络替换为基于 Transformer 的网络。
自 2019 年 Song Yang 那篇从 Score-Based Model 视角理解生成模型的文章首次使用 U-Net 以来,后续扩散模型的各种标杆工作,如 DDPM、ADM、Imagen 等,都基于 U-Net 架构对 Diffusion Model 中的'噪音'进行建模。传统的 U-Net 网络结构如下图所示:

随着 Vision Transformer(ViT)逐渐在各类视觉任务中崭露头角,一个很自然的想法是:'扩散模型网络架构是否一定需要基于 CNN?'U-ViT 与 DiT 给出了肯定的回答:'显然不是,甚至 Transformer 更好'。
为了验证最初的直觉,U-ViT 设计了如下基于 ViT 的网络架构。利用 ViT 的思路,U-ViT 将带噪图片划分多个 Patch,结合扩散模型中的扩散时间步、条件等信息作为 Token 输入到 Transformer Block 之中。






