中国挑战者来了!Vidu 横空出世:文生视频能力比肩 Sora?
2 个月前,OpenAI 发布了全新的文生视频模型 Sora,瞬间引爆了全球科技圈。在那之后,没有任何一个大模型敢于在文生视频领域直接「挑衅」Sora。
现在,事情有了变化。
在 4 月 27 日举办的 2024 中关村论坛上,生数科技与清华大学联合发布了「Vidu」文生视频模型,全面对标 OpenAI 的 Sora。
![Vidu 生成效果对比]
Vidu 生成,动图经过压缩。图/生数科技
不仅是在视频生成分辨率和时长上,最关键的根据官方放出的生成视频,Vidu 已经实现了相当程度的「拟真」——模拟真实世界的物理原理,以及主体的一致性。这是 Vidu 真正对标 Sora 的底气。
但 Vidu,离 Sora 到底还有多少差距?
对标 Sora,Vidu 还差「一点」
从这次发布可以看出,Vidu 处处都在对标 Sora。同样是通过提示词直接生成视频,同样支持最高 1080P,虽然 16 秒的生成视频时长还明显短于 Sora(最长 60 秒)。
最明显的还是生成的视频内容。
比如 Sora 街头行走这一段,相信会看这篇文章的读者应该都看过,一度刷爆了各大社交媒体。
![Sora 生成效果对比]
Sora 生成,动图经过压缩。图/OpenAI
Vidu 也同样生成了类似的视频内容,开始展示了一男一女一熊走在街头的画面,随后又重点展示了熊人的背景街道。
![Vidu 生成效果对比]
Vidu 生成,动图经过压缩。图/生数科技
虽然相比 Sora 那段少了很多震撼和细节展示,但不管是皮衣的质感,还是路面的反射和倒影,Vidu 其实都展现了非常有说服力的效果。
更重要的是,背景、人物主体是一致的,并没有在前后发生大的变形或变化。
类似的表现还出现在其他生成视频上。
比如开车这一段,镜头一直跟随着汽车前移,但路旁的树木和汽车主体始终没有发生变化,并不像很多扩散模型一样,这一秒和下一秒的主体都可能出现明显的差异。
![Vidu 生成效果对比]
Vidu 生成,动图经过压缩。图/生数科技
不过在保真度上,Vidu 还是和 Sora 有比较明显的差距。相似的提示词(内容)下,Sora 开车这一段的背景明显更接近真实世界,用比较通俗的话讲,Vidu 有点「油画」感。
![Sora 生成效果对比]
Sora 生成,动图经过压缩。图/OpenAI
但显然,Vidu 作为国产大模型,还是更懂中国。
Sora 在之前曾经生成过一段街头「舞龙」的视频,而 Vidu 干脆直接生成了一段「真龙」的视频,背景是辉煌的宫殿群。
![Vidu 生成效果对比]
Vidu 生成,动图经过压缩。图/生数科技
如果 Sora 的重点与其说是舞龙,实则更像展现「围观群众」的惊人模拟,那 Vidu 就是真真正正模拟了一条龙。
此外,Vidu 还生成了一段「熊猫在湖边弹吉他」,除了主体上的拟真,背景部分的草地、湖水都相当程度地「真实」。
![Vidu 生成效果对比]
Vidu 生成片段截图,非动图。图/生数科技
在人物生成上,Vidu 也有一组画面充分展示了它的实力,从面部表情、眨眼到抬头,都非常接近实拍镜头。就算比起 Sora 的人物镜头,也不逊色多少。
![Vidu 生成效果对比]
Vidu 生成,动图经过压缩。图/生数科技
另外考虑到要参与视频内容制作流程,这类文生视频模型也绕不开「镜头调度」的能力,事实是 Vidu 依然展示了相当不错的水平。
总的来说,虽然有 Sora 珠玉在前,但从目前公布的生成视频来看,Vidu 依然展示了极高的视频生成能力,或者说是模拟物理世界的能力。或许在生成复杂画面、保真度等方面还差 Sora,但有一些镜头完全称得上可用,这已经是一个很大的进步。
当然,Sora 的反方向跑步,Vidu 的「人物」突然长出第三条腿,都说明即便 AI 在视频生成领域有了跨越性的进步,仍然还有很大的提升空间。
![Vidu 生成效果对比]
突然出现的第三条腿。图/生数科技
正如 OpenAI 在 Sora 发布之初承认的,这类模型当前存在一定的局限性,比如无法模拟复杂场景的物理效应,理解某些特定因果关系等。
好饭不怕晚:如何制造 Vidu?
看起来,Vidu 就好像 Sora 一样横空出世,以相当惊艳的表现引起刷屏,而且同是基于对 Transformer 与 Diffusion 架构的融合。但很多人并不知道,生数科技联合创始人兼 CEO 唐家渝上个月就透露过:
「今年内一定能达到 Sora 目前版本的效果。」
不仅如此,这家几乎可以算是从清华大学人工智能研究所「孵化」出来的初创公司,在 2022 年 9 月就提出了融合 Diffusion 和 Transformer 的 U-ViT 架构,比 OpenAI 提出 DiT 架构(Sora 的底层架构)还要早。


