生数科技联合清华发布视频大模型 Vidu，全面对标 Sora

生数科技联合清华大学推出视频大模型 Vidu

在近日举行的 2024 中关村论坛人工智能主题日未来人工智能先锋论坛上，清华大学教授、生数科技首席科学家朱军宣布，生数科技与清华大学联合推出中国首个原创全自研长时长、高一致性、高动态性的视频大模型 Vidu。

根据公开融资信息，成立于去年 3 月的生数科技，是当前国内累计融资额及估值最高的类 Sora 创企之一。迄今已完成数亿元融资，投资方包括百度风投、智谱 AI、蚂蚁集团以及创始成员多数来自于原字节跳动投资团队的锦秋基金。

Vidu 核心功能与特色

Vidu 能根据文本描述直接生成 16 秒高质量视频，且生成视频流畅连贯，没有明显的插帧现象。据介绍，这是因为 Vidu 采用的是'一步到位'的生成方式，与 Sora 一样，文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，无需经过多个步骤的关键帧生成和插帧处理。

Vidu 支持一键生成长达 16 秒、1080P 分辨率的高清视频内容，具备模拟真实物理世界、富有想象力、多镜头语言、高时空一致性、理解中国元素等特色。

1. 模拟真实物理世界

能够生成复杂、细节丰富的场景，且符合物理规律，例如合理的光影效果、细腻的人物表情等。

Vidu 生成的 SUV 加速行驶在陡峭土路上的场景

2. 富有想象力

能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容。

Vidu 根据提示词生成的画室船只视频

3. 多镜头语言

能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换，包括能直接生成长镜头、追焦、转场等效果，给视频注入镜头语言。

Vidu 生成的海边小屋镜头过渡视频

4. 高时空一致性

在 16 秒的时长上保持连贯流畅，随着镜头的移动，人物和场景在时间、空间中能够保持一致。

Vidu 生成的蓝眼睛橙色猫肖像视频

5. 理解中国元素

能够理解、生成特有的中国元素，例如熊猫、龙等。

Vidu 生成的熊猫弹吉他视频

生数科技联合清华发布视频大模型 Vidu，全面对标 Sora

生数科技联合清华大学推出视频大模型 Vidu

Vidu 核心功能与特色

1. 模拟真实物理世界

2. 富有想象力

3. 多镜头语言

4. 高时空一致性

5. 理解中国元素

技术突破与架构演进

更多推荐文章

相关免费在线工具

行业意义与技术背景解析

生态合作计划

更多推荐文章

相关免费在线工具

生数科技联合清华发布视频大模型 Vidu，全面对标 Sora

生数科技联合清华大学推出视频大模型 Vidu

Vidu 核心功能与特色

1. 模拟真实物理世界

2. 富有想象力

3. 多镜头语言

4. 高时空一致性

5. 理解中国元素

技术突破与架构演进

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

行业意义与技术背景解析

生态合作计划

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具