生数科技联合清华发布 Vidu 文生视频模型，对标 Sora

生数科技与清华大学联合发布 Vidu 文生视频模型，全面对标 OpenAI Sora。Vidu 支持 1080P 分辨率，生成时长达 16 秒，在主体一致性与物理原理模拟方面表现突出，虽在保真度上与 Sora 存在一定差距，但已具备实用价值。该模型基于 U-ViT 架构，融合了 Transformer 与 Diffusion 技术，解决了传统扩散模型在时序一致性上的难题。文章分析了 Vidu 的技术路线、商业策略及行业挑战，指出国产大模型在算力与数据受限背景下取得的突破，并展望了文生视频技术的未来发展方向。

DevOpsTeam发布于 2025/2/6更新于 2026/7/2039 浏览

中国挑战者来了！Vidu 横空出世：文生视频能力比肩 Sora？

2 个月前，OpenAI 发布了全新的文生视频模型 Sora，瞬间引爆了全球科技圈。在那之后，没有任何一个大模型敢于在文生视频领域直接「挑衅」Sora。

现在，事情有了变化。

在 4 月 27 日举办的 2024 中关村论坛上，生数科技与清华大学联合发布了「Vidu」文生视频模型，全面对标 OpenAI 的 Sora。

![Vidu 生成效果对比]

Vidu 生成，动图经过压缩。图/生数科技

不仅是在视频生成分辨率和时长上，最关键的根据官方放出的生成视频，Vidu 已经实现了相当程度的「拟真」——模拟真实世界的物理原理，以及主体的一致性。这是 Vidu 真正对标 Sora 的底气。

但 Vidu，离 Sora 到底还有多少差距？

对标 Sora，Vidu 还差「一点」

从这次发布可以看出，Vidu 处处都在对标 Sora。同样是通过提示词直接生成视频，同样支持最高 1080P，虽然 16 秒的生成视频时长还明显短于 Sora（最长 60 秒）。

最明显的还是生成的视频内容。

比如 Sora 街头行走这一段，相信会看这篇文章的读者应该都看过，一度刷爆了各大社交媒体。

![Sora 生成效果对比]

Sora 生成，动图经过压缩。图/OpenAI

Vidu 也同样生成了类似的视频内容，开始展示了一男一女一熊走在街头的画面，随后又重点展示了熊人的背景街道。

![Vidu 生成效果对比]

Vidu 生成，动图经过压缩。图/生数科技

虽然相比 Sora 那段少了很多震撼和细节展示，但不管是皮衣的质感，还是路面的反射和倒影，Vidu 其实都展现了非常有说服力的效果。

更重要的是，背景、人物主体是一致的，并没有在前后发生大的变形或变化。

类似的表现还出现在其他生成视频上。

比如开车这一段，镜头一直跟随着汽车前移，但路旁的树木和汽车主体始终没有发生变化，并不像很多扩散模型一样，这一秒和下一秒的主体都可能出现明显的差异。

![Vidu 生成效果对比]

Vidu 生成，动图经过压缩。图/生数科技

不过在保真度上，Vidu 还是和 Sora 有比较明显的差距。相似的提示词（内容）下，Sora 开车这一段的背景明显更接近真实世界，用比较通俗的话讲，Vidu 有点「油画」感。

![Sora 生成效果对比]

Sora 生成，动图经过压缩。图/OpenAI

但显然，Vidu 作为国产大模型，还是更懂中国。

Sora 在之前曾经生成过一段街头「舞龙」的视频，而 Vidu 干脆直接生成了一段「真龙」的视频，背景是辉煌的宫殿群。

![Vidu 生成效果对比]

Vidu 生成，动图经过压缩。图/生数科技

如果 Sora 的重点与其说是舞龙，实则更像展现「围观群众」的惊人模拟，那 Vidu 就是真真正正模拟了一条龙。

此外，Vidu 还生成了一段「熊猫在湖边弹吉他」，除了主体上的拟真，背景部分的草地、湖水都相当程度地「真实」。

![Vidu 生成效果对比]

Vidu 生成片段截图，非动图。图/生数科技

在人物生成上，Vidu 也有一组画面充分展示了它的实力，从面部表情、眨眼到抬头，都非常接近实拍镜头。就算比起 Sora 的人物镜头，也不逊色多少。

![Vidu 生成效果对比]

Vidu 生成，动图经过压缩。图/生数科技

另外考虑到要参与视频内容制作流程，这类文生视频模型也绕不开「镜头调度」的能力，事实是 Vidu 依然展示了相当不错的水平。

总的来说，虽然有 Sora 珠玉在前，但从目前公布的生成视频来看，Vidu 依然展示了极高的视频生成能力，或者说是模拟物理世界的能力。或许在生成复杂画面、保真度等方面还差 Sora，但有一些镜头完全称得上可用，这已经是一个很大的进步。

当然，Sora 的反方向跑步，Vidu 的「人物」突然长出第三条腿，都说明即便 AI 在视频生成领域有了跨越性的进步，仍然还有很大的提升空间。

![Vidu 生成效果对比]

突然出现的第三条腿。图/生数科技

正如 OpenAI 在 Sora 发布之初承认的，这类模型当前存在一定的局限性，比如无法模拟复杂场景的物理效应，理解某些特定因果关系等。

好饭不怕晚：如何制造 Vidu？

看起来，Vidu 就好像 Sora 一样横空出世，以相当惊艳的表现引起刷屏，而且同是基于对 Transformer 与 Diffusion 架构的融合。但很多人并不知道，生数科技联合创始人兼 CEO 唐家渝上个月就透露过：

「今年内一定能达到 Sora 目前版本的效果。」

生数科技联合清华发布 Vidu 文生视频模型，对标 Sora

中国挑战者来了！Vidu 横空出世：文生视频能力比肩 Sora？

对标 Sora，Vidu 还差「一点」

好饭不怕晚：如何制造 Vidu？

更多推荐文章

相关免费在线工具

技术深度解析：Transformer 与 Diffusion 的融合

写在最后

行业展望与挑战

更多推荐文章

相关免费在线工具

生数科技联合清华发布 Vidu 文生视频模型，对标 Sora

中国挑战者来了！Vidu 横空出世：文生视频能力比肩 Sora？

对标 Sora，Vidu 还差「一点」

好饭不怕晚：如何制造 Vidu？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

技术深度解析：Transformer 与 Diffusion 的融合

写在最后

行业展望与挑战

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具