清华大学联合生数科技发布自研视频大模型 Vidu,性能比肩 Sora
清华大学教授朱军宣布生数科技推出中国首个原创全自研视频大模型 Vidu。该模型支持一键生成 16 秒 1080P 高清视频,采用一步到位的端到端生成方式,无需插帧处理。Vidu 具备模拟物理世界、多镜头语言及高时空一致性等五大特色,并在理解中国元素方面表现突出。技术层面基于 U-ViT 架构,早于 Sora 同源架构 DiT 发表。生数科技已完成数亿元融资,并推出合作伙伴计划共建生态。

清华大学教授朱军宣布生数科技推出中国首个原创全自研视频大模型 Vidu。该模型支持一键生成 16 秒 1080P 高清视频,采用一步到位的端到端生成方式,无需插帧处理。Vidu 具备模拟物理世界、多镜头语言及高时空一致性等五大特色,并在理解中国元素方面表现突出。技术层面基于 U-ViT 架构,早于 Sora 同源架构 DiT 发表。生数科技已完成数亿元融资,并推出合作伙伴计划共建生态。

中国首个长时长、高一致性、高动态性视频大模型 Vidu 正式发布。
在 2024 中关村论坛人工智能主题日未来人工智能先锋论坛上,清华大学教授、生数科技首席科学家朱军宣布,生数科技与清华大学联合推出中国首个原创全自研长时长、高一致性、高动态性的视频大模型 Vidu。
根据公开融资信息,成立于去年 3 月的生数科技,是当前国内累计融资额及估值最高的类 Sora 创企。迄今已完成数亿元融资,投资方包括百度风投、智谱 AI、蚂蚁集团以及创始成员多数来自于原字节跳动投资团队的锦秋基金。
朱军现场展示了 Vidu 与 Pika、Gen-2、Sora 等行业现有文生视频大模型的生成视频效果对比。他评价说,Vidu 在 16 秒长期保持和语义理解等方面表现得非常突出。
Vidu 能根据文本描述直接生成16 秒高质量视频,且生成视频流畅连贯,没有明显的插帧现象。这是因为 Vidu 采用的是'一步到位'的生成方式,与 Sora 一样,文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,无需经过多个步骤的关键帧生成和插帧处理。这种架构显著减少了中间环节的误差累积,提升了视频的物理真实感和运动连贯性。
Vidu 支持一键生成长达 16 秒、1080P 分辨率的高清视频内容,具备以下五大特色:
朱军称其快速突破离不开 5 个要素:算法原理、模型架构、算力资源、数据治理、工程实现。
Vidu 的快速突破源于长期积累和多项原创成果,其技术路线与 Sora 高度一致。2022 年 9 月,其团队在全球首发 U-ViT 网络架构,这是全球首个 Diffusion Transformer 架构。这一架构提出 3 个月后,Sora 采用的同源基础架构 DiT 的论文才发表。U-ViT 将视觉 Transformer 与扩散模型结合,极大地提升了生成质量。
受限于算力限制,其团队起初选择做文生图、文生 3D 这类计算量相对小一些的大模型研发。2023 年 3 月在全球首发并开源基于 U-ViT 架构的多模态大模型 UniDiffuser,在全球范围内率先完成融合架构的大规模可扩展性(Scaling Law)验证。UniDiffuser 是在大规模图文数据集 LAION-5B 上训练出的近 10 亿参数量模型,支持图文模态间的任意生成和转换,在架构上比同样 DiT 架构的 Stable Diffusion 3 领先了一年。
同年 5 月,该团队提出文生 3D 新算法 Prolific Dreamer,今年 1 月发布 4D 框架 Animatable Dreamer 并实现可生成 4 秒视频的文生视频模型。
"Sora 出来之后,刺激了我们攻关的速度。"朱军说,团队第一时间紧急启动和攻关,3 月将视频时长突破 8 秒,4 月突破 16 秒,短短两个月实现了长视频表示与处理关键技术的突破,取得了今天的效果,将视频连贯性与动态性显著提升。
朱军解释说,Vidu 的取名有多重含义,首先字面含义与"Video(视频)"相近,更深层的含义还表达了三个愿景:
一是谐音"We do","我们第一时间决定我们应该要做,而且立即去做";二是谐音"We did",今天的进展虽然只是迈出一小步,但确实做到在这个方向能够有突破性进展;三是"We do together",现在的进展还在初步阶段,希望与国内优质单位合作,共同实现技术进步。
大模型的突破是一个多维度、跨领域的综合性过程,需要技术与产业应用的深度融合。为此,生数科技正式推出"Vidu 大模型合作伙伴计划",发起合作伙伴申请通道,诚邀产业链上下游的企业和研究机构共同合作,推动视频大模型发展。这将有助于加速技术落地,丰富应用场景,构建更加完善的 AI 视频生成生态系统。
Vidu 的发布标志着中国在 AIGC 视频生成领域取得了重要进展。通过端到端的生成架构和对物理世界的深刻理解,Vidu 在长视频生成的一致性和动态性上达到了国际先进水平。随着生态合作的推进,预计将在影视制作、游戏开发、广告营销等领域产生深远影响。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online