Sora 模型技术报告：世界模拟器与视频生成能力解析

Sora 是一个基于文本条件扩散模型的视觉数据生成系统，采用时空潜在补丁和 Transformer 架构。它支持可变时长、分辨率和宽高比的视频及图像生成，最高可达一分钟高保真内容。核心能力包括视频压缩网络、语言理解（重字幕）、图像动画化、视频扩展与编辑以及数字世界模拟。尽管在物理交互一致性上仍有局限，但扩展视频模型被视为构建物理世界通用模拟器的有效途径。

dehua dong发布于 2025/2/7更新于 2026/7/942 浏览

作为世界模拟器的视频生成模型

我们探索视频数据生成模型的大规模训练。具体来说，我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的变压器架构。我们的最大模型 Sora 能够生成一分钟的高保真视频。结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

总结：Sora 包含了 DALL·E 3 的 recaption 技术 + 图像/视频 Patches + Transformers + Latent Diffusion + 原始数据分辨率训练

本技术报告重点关注（1）我们将所有类型的视觉数据转化为统一表示的方法，从而能够大规模训练生成模型，以及（2）对 Sora 的能力和局限性进行定性评估。本报告不包含模型和实施细节。

许多先前的工作已经研究了使用各种方法对视频数据进行生成建模，包括循环网络、生成对抗网络、自回归变压器和扩散模型。这些作品通常关注一小类视觉数据、较短的视频或固定大小的视频。Sora 是视觉数据的通用模型，它可以生成不同时长、长宽比和分辨率的视频和图像，最多可达一分钟的高清视频。

将视觉数据转化为补丁

我们从大型语言模型中获得灵感，这些模型通过互联网规模数据的训练来获得通用能力。LLM 范式的成功部分归功于令牌的使用，这些令牌优雅地统一了文本代码、数学和各种自然语言的不同模式。在这项工作中，我们考虑视觉数据的生成模型如何继承这些好处。LLM 有文本标记，而 Sora 有视觉补丁。此前，补丁已被证明是视觉数据模型的有效表示。我们发现补丁是一种高度可扩展且有效的表示形式，可用于在不同类型的视频和图像上训练生成模型。

在较高的层次上，我们首先将视频压缩到较低维的潜在空间，将视频转换为补丁，然后将表示分解为时空补丁。

视频压缩网络

我们训练一个降低视觉数据维度的网络。该网络将原始视频作为输入并输出在时间和空间上压缩的潜在表示。Sora 在这个压缩的潜在空间中接受训练并随后生成视频。我们还训练了相应的解码器模型，将生成的潜伏映射回像素空间。

时空潜在斑块

给定一个压缩的输入视频，我们提取一系列时空补丁，充当变压器令牌。该方案也适用于图像，因为图像只是具有单帧的视频。我们基于补丁的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时，我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。

用于视频生成的缩放变压器

Sora 是一个扩散模型。给定输入噪声补丁（以及文本提示等调节信息），它被训练来预测原始的'干净'补丁。重要的是，Sora 是一个扩散 Transformer。Transformer 在各个领域都表现出了卓越的扩展特性，包括语言建模、计算机视觉和图像生成。

在这项工作中，我们发现扩散 Transformer 也可以有效地缩放为视频模型。下面，我们展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加，样本质量显著提高。

可变的持续时间、分辨率、宽高比

过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸，例如，分辨率为 256x256 的 4 秒视频。我们发现，对原始大小的数据进行训练有几个好处。

采样灵活性

Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。这使得 Sora 可以直接以其原生宽高比为不同设备创建内容。它还使我们能够在以全分辨率生成之前快速以较低尺寸制作原型内容 - 所有这些都使用相同的模型。

改进的框架和构图

我们根据经验发现，以原始长宽比对视频进行训练可以改善构图和取景。我们将 Sora 与将所有训练视频裁剪为正方形的模型版本进行比较，这是训练生成模型时的常见做法。在方形作物上训练的模型有时会生成仅部分可见主体的视频。相比之下，Sora 的视频取景有所改善。

语言理解

训练文本到视频生成系统需要大量带有相应文本字幕的视频。我们应用了 DALL·E 3 中引入的重新字幕技术到视频。我们首先训练一个高度描述性的字幕生成器模型，然后使用它为训练集中的所有视频生成文本字幕。我们发现，对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。

与 DALL·E 3 类似，我们还利用 GPT 将简短的用户提示转换为较长的详细字幕，然后发送到视频模型。这使得 Sora 能够生成准确遵循用户提示的高质量视频。

通过图像和视频进行提示

中的所有结果都显示文本到视频的示例。但 Sora 也可以通过其他输入进行提示，例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务 - 创建完美的循环视频、动画静态图像、及时向前或向后扩展视频等。

DALL·E 图像动画

Sora 能够生成提供图像和提示作为输入的视频。下面我们展示基于 DALL·E 2 生成的示例视频和达尔·E 3 图片。

Sora 模型技术报告：世界模拟器与视频生成能力解析

作为世界模拟器的视频生成模型

将视觉数据转化为补丁

视频压缩网络

时空潜在斑块

用于视频生成的缩放变压器

可变的持续时间、分辨率、宽高比

采样灵活性

改进的框架和构图

语言理解

通过图像和视频进行提示

DALL·E 图像动画

扩展生成的视频

更多推荐文章

相关免费在线工具

视频到视频编辑

连接视频

图像生成能力

新兴的模拟功能

讨论

参考

更多推荐文章

相关免费在线工具

Sora 模型技术报告：世界模拟器与视频生成能力解析

作为世界模拟器的视频生成模型

将视觉数据转化为补丁

视频压缩网络

时空潜在斑块

用于视频生成的缩放变压器

可变的持续时间、分辨率、宽高比

采样灵活性

改进的框架和构图

语言理解

通过图像和视频进行提示

DALL·E 图像动画

扩展生成的视频

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

视频到视频编辑

连接视频

图像生成能力

新兴的模拟功能

讨论

参考

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具