生数科技联合清华大学推出视频大模型 Vidu
在近日举行的 2024 中关村论坛人工智能主题日未来人工智能先锋论坛上,清华大学教授、生数科技首席科学家朱军宣布,生数科技与清华大学联合推出中国首个原创全自研长时长、高一致性、高动态性的视频大模型 Vidu。
根据公开融资信息,成立于去年 3 月的生数科技,是当前国内累计融资额及估值最高的类 Sora 创企之一。迄今已完成数亿元融资,投资方包括百度风投、智谱 AI、蚂蚁集团以及创始成员多数来自于原字节跳动投资团队的锦秋基金。
Vidu 核心功能与特色
Vidu 能根据文本描述直接生成 16 秒高质量视频,且生成视频流畅连贯,没有明显的插帧现象。据介绍,这是因为 Vidu 采用的是'一步到位'的生成方式,与 Sora 一样,文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,无需经过多个步骤的关键帧生成和插帧处理。
Vidu 支持一键生成长达 16 秒、1080P 分辨率的高清视频内容,具备模拟真实物理世界、富有想象力、多镜头语言、高时空一致性、理解中国元素等特色。
1. 模拟真实物理世界
能够生成复杂、细节丰富的场景,且符合物理规律,例如合理的光影效果、细腻的人物表情等。

2. 富有想象力
能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容。

3. 多镜头语言
能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换,包括能直接生成长镜头、追焦、转场等效果,给视频注入镜头语言。

4. 高时空一致性
在 16 秒的时长上保持连贯流畅,随着镜头的移动,人物和场景在时间、空间中能够保持一致。

5. 理解中国元素
能够理解、生成特有的中国元素,例如熊猫、龙等。

技术突破与架构演进
朱军称其快速突破离不开 5 个要素:算法原理、模型架构、算力资源、数据治理、工程实现。


