清华生数科技发布视频大模型 Vidu，解析其 U-ViT 架构与 Sora 对比

Vidu 视频大模型架构示意图

在 2024 中关村论坛年会上，由清华大学团队支持的生数科技正式推出了中国首个对标 Sora 的视频生成大模型 Vidu。该模型的横空出世被视为国产视频生成领域的重要里程碑。

尽管目前 Vidu 支持的视频时长为 16 秒，尚未达到 Sora 的 60 秒级水平，但从其宣传视频来看，Vidu 在时空一致性、物理规律遵循以及多镜头切换等关键能力上已展现出极高的水准，对 Sora 形成了有力的竞争态势。

背靠清华科研团队，提出全球首个 Diffusion + Transformer 架构 U-ViT

抛开视频生成的最终质量不谈，Vidu 背后的技术架构更值得深入探讨。研究发现，Vidu 所采用的核心架构 U-ViT 与 Sora 的核心架构 Diffusion Transformer（DiT）在本质上完全一致，且 U-ViT 的发表时间早于 DiT。

生数科技成立于 2023 年 3 月，但其创业团队早在 2022 年 9 月就发布了基于 Transformer 架构的底层统一网络框架 U-ViT。相比之下，Sora 的核心架构 DiT 发布于 2022 年 12 月。这两项工作在架构思路与实验路径上高度趋同，核心思想均在于将 Transformer 与 Diffusion Model（扩散模型）进行深度融合。

U-ViT 与 DiT 架构对比图

论文链接：https://arxiv.org/pdf/2209.12152

清华大学人工智能研究院副院长、生数科技首席科学家朱军教授曾面对 Sora 表示：'虽然 Sora 的出现表明美国在多模态大模型领域具有领先性，但是中国也并非完全从零开始的阶段。'

在 Sora 发布后的三个月内，Vidu 成为世界上唯一突破 Sora 级能力的视频大模型。从 Transformer + Diffusion Model 这一理念构建伊始，Vidu 与 Sora 事实上就在走同一条技术路线。

2023 年 3 月，对标文生图的 Stable Diffusion，生数科技开源了全球首个基于 U-ViT 框架的多模态扩散大模型 UniDiffuser。该模型参数量从最早开源版的 1B 不断扩展至 3B、7B、10B 及以上，参数量和训练数据规模上与 Stable Diffusion 直接对齐，成功完成了 U-ViT 的可扩展性验证。

从 U-Net 到 ViT：扩散模型架构的演进

从 Diffusion Model 的最初网络架构——基于 CNN 的 U-Net 架构出发，与 Sora 的 DiT 一样，U-ViT 的核心思想都在于将基于 CNN 的网络替换为基于 Transformer 的网络。

自 2019 年 Song Yang 那篇从 Score-Based Model 视角理解生成模型的文章首次使用 U-Net 以来，后续扩散模型的各种标杆工作，如 DDPM、ADM、Imagen 等，都基于 U-Net 架构对 Diffusion Model 中的'噪音'进行建模。传统的 U-Net 网络结构如下图所示：

传统 U-Net 架构

随着 Vision Transformer（ViT）逐渐在各类视觉任务中崭露头角，一个很自然的想法是：'扩散模型网络架构是否一定需要基于 CNN？'U-ViT 与 DiT 给出了肯定的回答：'显然不是，甚至 Transformer 更好'。

为了验证最初的直觉，U-ViT 设计了如下基于 ViT 的网络架构。利用 ViT 的思路，U-ViT 将带噪图片划分多个 Patch，结合扩散模型中的扩散时间步、条件等信息作为 Token 输入到 Transformer Block 之中。

U-ViT 网络架构

清华生数科技发布视频大模型 Vidu，解析其 U-ViT 架构与 Sora 对比

背靠清华科研团队，提出全球首个 Diffusion + Transformer 架构 U-ViT

从 U-Net 到 ViT：扩散模型架构的演进

更多推荐文章

相关免费在线工具

U-ViT 曾被 CVPR 2023 拒稿，后被 ICCV 2023 接受

技术深度解析：Transformer 在扩散模型中的优势

未来展望：多模态大模型的通用化趋势

更多推荐文章

相关免费在线工具

清华生数科技发布视频大模型 Vidu，解析其 U-ViT 架构与 Sora 对比

背靠清华科研团队，提出全球首个 Diffusion + Transformer 架构 U-ViT

从 U-Net 到 ViT：扩散模型架构的演进

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

U-ViT 曾被 CVPR 2023 拒稿，后被 ICCV 2023 接受

技术深度解析：Transformer 在扩散模型中的优势

未来展望：多模态大模型的通用化趋势

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具