清华大学联合生数科技发布自研视频大模型 Vidu，性能比肩 Sora

清华大学教授朱军宣布生数科技推出中国首个原创全自研视频大模型 Vidu。该模型支持一键生成 16 秒 1080P 高清视频，采用一步到位的端到端生成方式，无需插帧处理。Vidu 具备模拟物理世界、多镜头语言及高时空一致性等五大特色，并在理解中国元素方面表现突出。技术层面基于 U-ViT 架构，早于 Sora 同源架构 DiT 发表。生数科技已完成数亿元融资，并推出合作伙伴计划共建生态。

协议工匠发布于 2025/2/6更新于 2026/7/2141 浏览

清华大学联合生数科技发布自研视频大模型 Vidu

中国首个长时长、高一致性、高动态性视频大模型 Vidu 正式发布。

在 2024 中关村论坛人工智能主题日未来人工智能先锋论坛上，清华大学教授、生数科技首席科学家朱军宣布，生数科技与清华大学联合推出中国首个原创全自研长时长、高一致性、高动态性的视频大模型 Vidu。

融资背景与行业地位

根据公开融资信息，成立于去年 3 月的生数科技，是当前国内累计融资额及估值最高的类 Sora 创企。迄今已完成数亿元融资，投资方包括百度风投、智谱 AI、蚂蚁集团以及创始成员多数来自于原字节跳动投资团队的锦秋基金。

Vidu 核心能力与对比评测

朱军现场展示了 Vidu 与 Pika、Gen-2、Sora 等行业现有文生视频大模型的生成视频效果对比。他评价说，Vidu 在 16 秒长期保持和语义理解等方面表现得非常突出。

技术原理：一步到位的端到端生成

Vidu 能根据文本描述直接生成16 秒高质量视频，且生成视频流畅连贯，没有明显的插帧现象。这是因为 Vidu 采用的是'一步到位'的生成方式，与 Sora 一样，文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，无需经过多个步骤的关键帧生成和插帧处理。这种架构显著减少了中间环节的误差累积，提升了视频的物理真实感和运动连贯性。

Vidu 五大特色详解

Vidu 支持一键生成长达 16 秒、1080P 分辨率的高清视频内容，具备以下五大特色：

模拟真实物理世界：能够生成复杂、细节丰富的场景，且符合物理规律，例如合理的光影效果、细腻的人物表情等。这得益于模型对物理引擎的隐式学习，使得生成的物体运动轨迹和光影变化符合现实逻辑。
富有想象力：能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容。模型在训练过程中融合了多样化的艺术风格数据，使其具备较强的创意生成能力。
多镜头语言：能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换，包括能直接生成长镜头、追焦、转场等效果，给视频注入镜头语言。这对于影视创作和短视频制作具有重要意义。
高时空一致性：在 16 秒的时长上保持连贯流畅，随着镜头的移动，人物和场景在时间、空间中能够保持一致。解决了传统视频生成中常见的物体变形、闪烁等问题。
理解中国元素：能够理解、生成特有的中国元素，例如熊猫、龙等。这表明模型在中文语境和文化符号的理解上进行了专项优化，更贴合本土用户需求。

技术突破源于多项原创成果

朱军称其快速突破离不开 5 个要素：算法原理、模型架构、算力资源、数据治理、工程实现。

U-ViT 架构的先发优势

Vidu 的快速突破源于长期积累和多项原创成果，其技术路线与 Sora 高度一致。2022 年 9 月，其团队在全球首发 U-ViT 网络架构，这是全球首个 Diffusion Transformer 架构。这一架构提出 3 个月后，Sora 采用的同源基础架构 DiT 的论文才发表。U-ViT 将视觉 Transformer 与扩散模型结合，极大地提升了生成质量。

从图文到视频的技术演进

受限于算力限制，其团队起初选择做文生图、文生 3D 这类计算量相对小一些的大模型研发。2023 年 3 月在全球首发并开源基于 U-ViT 架构的多模态大模型 UniDiffuser，在全球范围内率先完成融合架构的大规模可扩展性（Scaling Law）验证。UniDiffuser 是在大规模图文数据集 LAION-5B 上训练出的近 10 亿参数量模型，支持图文模态间的任意生成和转换，在架构上比同样 DiT 架构的 Stable Diffusion 3 领先了一年。

同年 5 月，该团队提出文生 3D 新算法 Prolific Dreamer，今年 1 月发布 4D 框架 Animatable Dreamer 并实现可生成 4 秒视频的文生视频模型。

"Sora 出来之后，刺激了我们攻关的速度。"朱军说，团队第一时间紧急启动和攻关，3 月将视频时长突破 8 秒，4 月突破 16 秒，短短两个月实现了长视频表示与处理关键技术的突破，取得了今天的效果，将视频连贯性与动态性显著提升。

清华大学联合生数科技发布自研视频大模型 Vidu，性能比肩 Sora

清华大学联合生数科技发布自研视频大模型 Vidu

融资背景与行业地位

Vidu 核心能力与对比评测

技术原理：一步到位的端到端生成

Vidu 五大特色详解

技术突破源于多项原创成果

U-ViT 架构的先发优势

从图文到视频的技术演进

生态共建与未来展望

Vidu 命名含义

更多推荐文章

相关免费在线工具

合作伙伴计划

总结

更多推荐文章

相关免费在线工具

清华大学联合生数科技发布自研视频大模型 Vidu，性能比肩 Sora

清华大学联合生数科技发布自研视频大模型 Vidu

融资背景与行业地位

Vidu 核心能力与对比评测

技术原理：一步到位的端到端生成

Vidu 五大特色详解

技术突破源于多项原创成果

U-ViT 架构的先发优势

从图文到视频的技术演进

生态共建与未来展望

Vidu 命名含义

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

合作伙伴计划

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具