OpenAI 文生视频大模型 Sora 技术深度解析
2 月 16 日,OpenAI 正式发布其首个文生视频模型 Sora。继 Runway、Pika、谷歌和 Meta 之后,OpenAI 正式加入视频生成领域的竞争。Sora 的发布在 AI 领域引起了巨大反响,被视为对全球 AI 视频初创企业的一次降维打击。
核心能力总结
可以用三个词来总结 Sora 的核心特性:
- 60s 超长长度:能够生成长达一分钟的视频。
- 单视频多角度镜头:支持复杂的摄像机运动和多视角切换。
- 世界模型(World Simulator):理解物理规律和空间关系。

官方资源
- 官方地址:https://openai.com/sora
- 技术报告:https://openai.com/research/video-generation-models-as-world-simulators
何为 Sora
Sora 是 OpenAI 最新发布的文生视频大模型。其强大之处在于不仅能生成长达一分钟的视频,还实现了视频画质的跨越式提升。它在可变持续时间、分辨率和纵横比的视频和图像上联合训练文本条件扩散模型。
工作原理
Sora 是一种扩散模型。它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐转换视频。Sora 能够一次生成整个视频或扩展生成的视频以使其更长。通过让模型一次看到许多帧,解决了一个具有挑战性的问题,即确保一个主题即使暂时离开视野也能保持不变。
与 GPT 模型类似,Sora 使用 Transformer 架构,释放出卓越的扩展性能。将视频和图像表示为称为 Patches 的较小数据单元的集合,每个 Patches 都类似于 GPT 中的一个 tokens。通过统一表示数据的方式,可以在比以前更广泛的视觉数据上训练扩散 transformers,跨越不同的持续时间、分辨率和纵横比。
Sora 建立在 DALL·E 和 GPT 模型之上。它使用了 DALL·E 3,涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更忠实地遵循生成视频中用户的文本说明。
OpenAI 的真正强大在于要实现 AGI,做 World Simulators(世界模拟器),帮助人们解决需要现实世界交互的问题。

效果展示
60s 超长视频
完美碾压 Runway Gen2 和 pika1.0,Sora 直接把生成视频的时长拉长到了 1 分钟!
提示:一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。
单视频多角度镜头
Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt






