OpenAI 文生视频大模型 Sora 技术深度解析

2 月 16 日，OpenAI 正式发布其首个文生视频模型 Sora。继 Runway、Pika、谷歌和 Meta 之后，OpenAI 正式加入视频生成领域的竞争。Sora 的发布在 AI 领域引起了巨大反响，被视为对全球 AI 视频初创企业的一次降维打击。

核心能力总结

可以用三个词来总结 Sora 的核心特性：

60s 超长长度：能够生成长达一分钟的视频。
单视频多角度镜头：支持复杂的摄像机运动和多视角切换。
世界模型（World Simulator）：理解物理规律和空间关系。

AIGC｜OpenAI 文生视频大模型 Sora 技术深度解析

官方资源

官方地址：https://openai.com/sora
技术报告：https://openai.com/research/video-generation-models-as-world-simulators

何为 Sora

Sora 是 OpenAI 最新发布的文生视频大模型。其强大之处在于不仅能生成长达一分钟的视频，还实现了视频画质的跨越式提升。它在可变持续时间、分辨率和纵横比的视频和图像上联合训练文本条件扩散模型。

工作原理

Sora 是一种扩散模型。它从看起来像静态噪声的视频开始生成视频，然后通过多个步骤消除噪声来逐渐转换视频。Sora 能够一次生成整个视频或扩展生成的视频以使其更长。通过让模型一次看到许多帧，解决了一个具有挑战性的问题，即确保一个主题即使暂时离开视野也能保持不变。

与 GPT 模型类似，Sora 使用 Transformer 架构，释放出卓越的扩展性能。将视频和图像表示为称为 Patches 的较小数据单元的集合，每个 Patches 都类似于 GPT 中的一个 tokens。通过统一表示数据的方式，可以在比以前更广泛的视觉数据上训练扩散 transformers，跨越不同的持续时间、分辨率和纵横比。

Sora 建立在 DALL·E 和 GPT 模型之上。它使用了 DALL·E 3，涉及为视觉训练数据生成高度描述性的标题。因此，该模型能够更忠实地遵循生成视频中用户的文本说明。

OpenAI 的真正强大在于要实现 AGI，做 World Simulators（世界模拟器），帮助人们解决需要现实世界交互的问题。

AIGC｜OpenAI 文生视频大模型 Sora 技术深度解析

效果展示

60s 超长视频

完美碾压 Runway Gen2 和 pika1.0，Sora 直接把生成视频的时长拉长到了 1 分钟！

提示：一位时尚的女人走在东京的街道上，街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克，红色长裙，黑色靴子，背着一个黑色钱包。她戴着墨镜，涂着红色口红。她自信而随意地走路。街道潮湿而反光，营造出五颜六色的灯光的镜面效果。许多行人四处走动。

单视频多角度镜头

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt

OpenAI 文生视频大模型 Sora 技术深度解析