清华大学联合生数科技发布自研视频大模型 Vidu
中国首个长时长、高一致性、高动态性视频大模型 Vidu 正式发布。
在 2024 中关村论坛人工智能主题日未来人工智能先锋论坛上,清华大学教授、生数科技首席科学家朱军宣布,生数科技与清华大学联合推出中国首个原创全自研长时长、高一致性、高动态性的视频大模型 Vidu。
融资背景与行业地位
根据公开融资信息,成立于去年 3 月的生数科技,是当前国内累计融资额及估值最高的类 Sora 创企。迄今已完成数亿元融资,投资方包括百度风投、智谱 AI、蚂蚁集团以及创始成员多数来自于原字节跳动投资团队的锦秋基金。
Vidu 核心能力与对比评测
朱军现场展示了 Vidu 与 Pika、Gen-2、Sora 等行业现有文生视频大模型的生成视频效果对比。他评价说,Vidu 在 16 秒长期保持和语义理解等方面表现得非常突出。
技术原理:一步到位的端到端生成
Vidu 能根据文本描述直接生成16 秒高质量视频,且生成视频流畅连贯,没有明显的插帧现象。这是因为 Vidu 采用的是'一步到位'的生成方式,与 Sora 一样,文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,无需经过多个步骤的关键帧生成和插帧处理。这种架构显著减少了中间环节的误差累积,提升了视频的物理真实感和运动连贯性。
Vidu 五大特色详解
Vidu 支持一键生成长达 16 秒、1080P 分辨率的高清视频内容,具备以下五大特色:
- 模拟真实物理世界:能够生成复杂、细节丰富的场景,且符合物理规律,例如合理的光影效果、细腻的人物表情等。这得益于模型对物理引擎的隐式学习,使得生成的物体运动轨迹和光影变化符合现实逻辑。
- 富有想象力:能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容。模型在训练过程中融合了多样化的艺术风格数据,使其具备较强的创意生成能力。
- 多镜头语言:能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换,包括能直接生成长镜头、追焦、转场等效果,给视频注入镜头语言。这对于影视创作和短视频制作具有重要意义。
- 高时空一致性:在 16 秒的时长上保持连贯流畅,随着镜头的移动,人物和场景在时间、空间中能够保持一致。解决了传统视频生成中常见的物体变形、闪烁等问题。
- 理解中国元素:能够理解、生成特有的中国元素,例如熊猫、龙等。这表明模型在中文语境和文化符号的理解上进行了专项优化,更贴合本土用户需求。
技术突破源于多项原创成果
朱军称其快速突破离不开 5 个要素:算法原理、模型架构、算力资源、数据治理、工程实现。
U-ViT 架构的先发优势
Vidu 的快速突破源于长期积累和多项原创成果,其技术路线与 Sora 高度一致。2022 年 9 月,其团队在全球首发 U-ViT 网络架构,这是全球首个 Diffusion Transformer 架构。这一架构提出 3 个月后,Sora 采用的同源基础架构 DiT 的论文才发表。U-ViT 将视觉 Transformer 与扩散模型结合,极大地提升了生成质量。
从图文到视频的技术演进
受限于算力限制,其团队起初选择做文生图、文生 3D 这类计算量相对小一些的大模型研发。2023 年 3 月在全球首发并开源基于 U-ViT 架构的多模态大模型 UniDiffuser,在全球范围内率先完成融合架构的大规模可扩展性(Scaling Law)验证。UniDiffuser 是在大规模图文数据集 LAION-5B 上训练出的近 10 亿参数量模型,支持图文模态间的任意生成和转换,在架构上比同样 DiT 架构的 Stable Diffusion 3 领先了一年。
同年 5 月,该团队提出文生 3D 新算法 Prolific Dreamer,今年 1 月发布 4D 框架 Animatable Dreamer 并实现可生成 4 秒视频的文生视频模型。
"Sora 出来之后,刺激了我们攻关的速度。"朱军说,团队第一时间紧急启动和攻关,3 月将视频时长突破 8 秒,4 月突破 16 秒,短短两个月实现了长视频表示与处理关键技术的突破,取得了今天的效果,将视频连贯性与动态性显著提升。


