
清华生数科技发布视频大模型 Vidu,解析其 U-ViT 架构与 Sora 对比
清华生数科技发布视频大模型 Vidu,采用 U-ViT 架构,与 Sora 的 DiT 架构思路一致但发表更早。文章分析了从 U-Net 到 ViT 的架构演进,探讨了 Transformer 在扩散模型中的优势及 Long Skip Connection 的作用,并指出 Vidu 基于多模态扩散模型基础,未来将向通用多模态方向发展。

清华生数科技发布视频大模型 Vidu,采用 U-ViT 架构,与 Sora 的 DiT 架构思路一致但发表更早。文章分析了从 U-Net 到 ViT 的架构演进,探讨了 Transformer 在扩散模型中的优势及 Long Skip Connection 的作用,并指出 Vidu 基于多模态扩散模型基础,未来将向通用多模态方向发展。


在 2024 中关村论坛年会上,由清华大学团队支持的生数科技正式推出了中国首个对标 Sora 的视频生成大模型 Vidu。该模型的横空出世被视为国产视频生成领域的重要里程碑。
尽管目前 Vidu 支持的视频时长为 16 秒,尚未达到 Sora 的 60 秒级水平,但从其宣传视频来看,Vidu 在时空一致性、物理规律遵循以及多镜头切换等关键能力上已展现出极高的水准,对 Sora 形成了有力的竞争态势。
抛开视频生成的最终质量不谈,Vidu 背后的技术架构更值得深入探讨。研究发现,Vidu 所采用的核心架构 U-ViT 与 Sora 的核心架构 Diffusion Transformer(DiT)在本质上完全一致,且 U-ViT 的发表时间早于 DiT。
生数科技成立于 2023 年 3 月,但其创业团队早在 2022 年 9 月就发布了基于 Transformer 架构的底层统一网络框架 U-ViT。相比之下,Sora 的核心架构 DiT 发布于 2022 年 12 月。这两项工作在架构思路与实验路径上高度趋同,核心思想均在于将 Transformer 与 Diffusion Model(扩散模型)进行深度融合。

清华大学人工智能研究院副院长、生数科技首席科学家朱军教授曾面对 Sora 表示:'虽然 Sora 的出现表明美国在多模态大模型领域具有领先性,但是中国也并非完全从零开始的阶段。'
在 Sora 发布后的三个月内,Vidu 成为世界上唯一突破 Sora 级能力的视频大模型。从 Transformer + Diffusion Model 这一理念构建伊始,Vidu 与 Sora 事实上就在走同一条技术路线。
2023 年 3 月,对标文生图的 Stable Diffusion,生数科技开源了全球首个基于 U-ViT 框架的多模态扩散大模型 UniDiffuser。该模型参数量从最早开源版的 1B 不断扩展至 3B、7B、10B 及以上,参数量和训练数据规模上与 Stable Diffusion 直接对齐,成功完成了 U-ViT 的可扩展性验证。
从 Diffusion Model 的最初网络架构——基于 CNN 的 U-Net 架构出发,与 Sora 的 DiT 一样,U-ViT 的核心思想都在于将基于 CNN 的网络替换为基于 Transformer 的网络。
自 2019 年 Song Yang 那篇从 Score-Based Model 视角理解生成模型的文章首次使用 U-Net 以来,后续扩散模型的各种标杆工作,如 DDPM、ADM、Imagen 等,都基于 U-Net 架构对 Diffusion Model 中的'噪音'进行建模。传统的 U-Net 网络结构如下图所示:

随着 Vision Transformer(ViT)逐渐在各类视觉任务中崭露头角,一个很自然的想法是:'扩散模型网络架构是否一定需要基于 CNN?'U-ViT 与 DiT 给出了肯定的回答:'显然不是,甚至 Transformer 更好'。
为了验证最初的直觉,U-ViT 设计了如下基于 ViT 的网络架构。利用 ViT 的思路,U-ViT 将带噪图片划分多个 Patch,结合扩散模型中的扩散时间步、条件等信息作为 Token 输入到 Transformer Block 之中。

除了将 ViT 模式引入扩散模型这一步骤外,U-ViT 还受 U-Net 启发,采用了浅层和深层之间的 Long Skip Connection。采取 Long Skip Connection 的直观原因在于,扩散模型利用预测噪声'去噪'的过程,高度依赖图像中的'Low-Level Feature',例如边缘、角点、颜色纹理等。这种连接通过将 Low-Level Feature 从网络的浅层引入到深层,从而大大提升了扩散模型的预测能力,进一步增强了模型的图像生成质量。

Sora 背后的 DiT 思路也几乎完全一致,最核心的一步都是将 ViT 引入到扩散模型之中,实现 VAE encoder + ViT + DDPM + VAE decoder 的组装。

===
一个有趣的插曲是,DiT 最初也是投稿于 CVPR 2023,但由于 CVPR 2023 已经收录了 U-ViT 论文,因此 DiT 被以'缺乏创新'为由拒稿,后来才被 ICCV 2023 接收。

当然彼时,无论是 U-ViT 还是 DiT 都还停留在图像生成的领域,尚未发展到视频生成这一步。不过在 2023 年 3 月,朱军教授团队的 UniDiffuser 在 U-ViT 的基础上,将扩散模型往多模态方向推进了一步。UniDiffuser 除了单向的文生图以外,还能实现如图生文、图文联合生成、图文改写等能力。从'多模态'出发,UniDiffuser 其实早在一年前就为今天 Vidu 的出现埋下了伏笔。

在 Vidu 发布之后,朱军教授发声:'Vidu,we do, we did, we do together!感谢小伙伴们日以继夜的坚持,在实验室架构上开花结果。'
可能与许多其他公司基于'复制'的'追赶者战略'不同,Vidu 实实在在的从机器学习与多模态大模型的理论研究与训练经验中走出了一条自己的道路。可能也正是因为这些积累,才让 Vidu 在短短两个月的时间内就突破了 Sora 背后的许多关键技术。
不同于 Sora 的视频生成,Vidu 一开始就建立在一个多模态扩散模型的基础之上。当下视频生成可能也仅仅是 Vidu 的一个展示形态。从这个意义上来讲,Vidu 当下许诺的,不仅仅是一个'中国版的 Sora'那么简单。
为了更深入地理解 U-ViT 与 DiT 的技术价值,我们需要分析 Transformer 架构为何能取代 CNN 成为扩散模型的主流 backbone。
首先,CNN 在处理局部特征方面表现出色,但在捕捉长距离依赖关系上存在局限。扩散模型的去噪过程往往需要全局上下文信息来确保生成内容的连贯性。Transformer 通过 Self-Attention 机制,能够有效地建模全局依赖关系,这对于视频生成中保持时序一致性尤为重要。
其次,ViT 的 Patch Embedding 策略使得模型能够灵活处理不同分辨率的输入。在视频生成场景中,这允许模型更好地适应不同帧率和分辨率的需求,而无需像 CNN 那样进行复杂的下采样或上采样操作。
此外,U-ViT 引入的 Long Skip Connection 解决了深层网络中的梯度消失问题,同时保留了低级特征。在扩散过程中,低级特征(如边缘、轮廓)对于维持物体结构的稳定性至关重要。通过将这些特征直接从浅层传递到深层,模型能够在去噪的每一步都获得更精确的结构指导。
Vidu 的成功发布标志着国产视频生成模型迈出了关键一步。然而,技术的竞争不仅仅是单一模型的比拼,更是生态与通用能力的较量。
未来的视频大模型将更加注重多模态融合能力。这意味着模型不仅要能生成视频,还要能理解复杂的指令、结合文本描述、音频信号甚至三维场景信息进行创作。UniDiffuser 的早期探索已经证明了这一方向的可行性。
此外,推理效率的提升也是关键挑战。目前的视频生成模型计算成本高昂,如何优化 Transformer 的计算复杂度,降低显存占用,将是推动技术落地的核心。量化、蒸馏以及专用硬件加速将是未来的研究重点。
综上所述,Vidu 及其背后的 U-ViT 架构展示了中国在 AI 基础理论研究上的深厚积累。随着技术的不断迭代,我们有理由相信,国产视频大模型将在全球舞台上发挥越来越重要的作用。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online