跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

Sora 模型技术报告:世界模拟器与视频生成能力解析

Sora 是一个基于文本条件扩散模型的视觉数据生成系统,采用时空潜在补丁和 Transformer 架构。它支持可变时长、分辨率和宽高比的视频及图像生成,最高可达一分钟高保真内容。核心能力包括视频压缩网络、语言理解(重字幕)、图像动画化、视频扩展与编辑以及数字世界模拟。尽管在物理交互一致性上仍有局限,但扩展视频模型被视为构建物理世界通用模拟器的有效途径。

dehua dong发布于 2025/2/7更新于 2026/6/325 浏览
Sora 模型技术报告:世界模拟器与视频生成能力解析

作为世界模拟器的视频生成模型

我们探索视频数据生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的变压器架构。我们的最大模型 Sora 能够生成一分钟的高保真视频。结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

总结:Sora 包含了 DALL·E 3 的 recaption 技术 + 图像/视频 Patches + Transformers + Latent Diffusion + 原始数据分辨率训练

本技术报告重点关注(1)我们将所有类型的视觉数据转化为统一表示的方法,从而能够大规模训练生成模型,以及(2)对 Sora 的能力和局限性进行定性评估。本报告不包含模型和实施细节。

许多先前的工作已经研究了使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归变压器和扩散模型。这些作品通常关注一小类视觉数据、较短的视频或固定大小的视频。Sora 是视觉数据的通用模型,它可以生成不同时长、长宽比和分辨率的视频和图像,最多可达一分钟的高清视频。

将视觉数据转化为补丁

我们从大型语言模型中获得灵感,这些模型通过互联网规模数据的训练来获得通用能力。LLM 范式的成功部分归功于令牌的使用,这些令牌优雅地统一了文本代码、数学和各种自然语言的不同模式。在这项工作中,我们考虑视觉数据的生成模型如何继承这些好处。LLM 有文本标记,而 Sora 有视觉补丁。此前,补丁已被证明是视觉数据模型的有效表示。我们发现补丁是一种高度可扩展且有效的表示形式,可用于在不同类型的视频和图像上训练生成模型。

在较高的层次上,我们首先将视频压缩到较低维的潜在空间,将视频转换为补丁,然后将表示分解为时空补丁。

视频压缩网络

我们训练一个降低视觉数据维度的网络。该网络将原始视频作为输入并输出在时间和空间上压缩的潜在表示。Sora 在这个压缩的潜在空间中接受训练并随后生成视频。我们还训练了相应的解码器模型,将生成的潜伏映射回像素空间。

时空潜在斑块

给定一个压缩的输入视频,我们提取一系列时空补丁,充当变压器令牌。该方案也适用于图像,因为图像只是具有单帧的视频。我们基于补丁的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。

用于视频生成的缩放变压器

Sora 是一个扩散模型。给定输入噪声补丁(以及文本提示等调节信息),它被训练来预测原始的'干净'补丁。重要的是,Sora 是一个扩散 Transformer。Transformer 在各个领域都表现出了卓越的扩展特性,包括语言建模、计算机视觉和图像生成。

在这项工作中,我们发现扩散 Transformer 也可以有效地缩放为视频模型。下面,我们展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加,样本质量显著提高。

可变的持续时间、分辨率、宽高比

过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸,例如,分辨率为 256x256 的 4 秒视频。我们发现,对原始大小的数据进行训练有几个好处。

采样灵活性

Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。这使得 Sora 可以直接以其原生宽高比为不同设备创建内容。它还使我们能够在以全分辨率生成之前快速以较低尺寸制作原型内容 - 所有这些都使用相同的模型。

改进的框架和构图

我们根据经验发现,以原始长宽比对视频进行训练可以改善构图和取景。我们将 Sora 与将所有训练视频裁剪为正方形的模型版本进行比较,这是训练生成模型时的常见做法。在方形作物上训练的模型有时会生成仅部分可见主体的视频。相比之下,Sora 的视频取景有所改善。

语言理解

训练文本到视频生成系统需要大量带有相应文本字幕的视频。我们应用了 DALL·E 3 中引入的重新字幕技术到视频。我们首先训练一个高度描述性的字幕生成器模型,然后使用它为训练集中的所有视频生成文本字幕。我们发现,对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。

与 DALL·E 3 类似,我们还利用 GPT 将简短的用户提示转换为较长的详细字幕,然后发送到视频模型。这使得 Sora 能够生成准确遵循用户提示的高质量视频。

通过图像和视频进行提示

中的所有结果都显示文本到视频的示例。但 Sora 也可以通过其他输入进行提示,例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务 - 创建完美的循环视频、动画静态图像、及时向前或向后扩展视频等。

DALL·E 图像动画

Sora 能够生成提供图像和提示作为输入的视频。下面我们展示基于 DALL·E 2 生成的示例视频和达尔·E 3 图片。

扩展生成的视频

Sora 还能够在时间上向前或向后扩展视频。下面是四个视频,它们都是从生成的视频片段开始向后延伸的。因此,这四个视频的开头都不同,但所有四个视频的结局都是相同的。

我们可以使用此方法向前和向后扩展视频以产生无缝的无限循环。

视频到视频编辑

扩散模型启用了多种根据文本提示编辑图像和视频的方法。下面我们应用其中一种方法,SDEdit,到 Sora。这项技术使 Sora 能够零镜头地改变输入视频的风格和环境。

连接视频

我们还可以使用 Sora 在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中,中心的视频插值在左侧和右侧的相应视频之间。

图像生成能力

Sora 还能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像,分辨率高达 2048x2048。

新兴的模拟功能

我们发现,视频模型在大规模训练时表现出许多有趣的新兴功能。这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。这些属性的出现对 3D、物体等没有任何明确的归纳偏差——它们纯粹是尺度现象。

3D 一致性。 Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人和场景元素在三维空间中一致移动。

远程相干性和物体持久性。 视频生成系统面临的一个重大挑战是在采样长视频时保持时间一致性。我们发现 Sora 通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。例如,我们的模型可以保留人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。

与世界互动。 Sora 有时可以用简单的方式模拟影响世界状况的动作。例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。

模拟数字世界。 Sora 还能够模拟人工过程——一个例子是视频游戏。Sora 可以同时通过基本策略控制《我的世界》中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过用提及'我的世界'的标题提示 Sora 来零射击。

这些功能表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前途的道路。

讨论

Sora 目前作为模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。其他交互(例如吃食物)并不总是会产生对象状态的正确变化。报告中列举了模型的其他常见故障模式,例如长时间样本中出现的不连贯性或对象的自发出现。

我们相信,Sora 今天所拥有的能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有前途的道路。

参考
  1. 斯里瓦斯塔瓦、尼蒂什、埃尔曼·曼西莫夫和鲁斯兰·萨拉胡迪诺夫。'使用 LSTMs 进行视频表示的无监督学习。'机器学习国际会议。PMLR,
  2. 奇亚帕、西尔维娅等人。'循环环境模拟器。' arXiv 预印本 arXiv:1704.02254 (2017)。
  3. 哈,大卫和尤尔根·施米德胡贝尔。'世界模特。' arXiv 预印本 arXiv:1803.10122 (2018)。
  4. 冯德里克、卡尔、哈米德·皮尔西亚瓦什和安东尼奥·托拉尔巴。'生成具有场景动态的视频。'神经信息处理系统的进展 29 (2016)。
  5. 图利亚科夫,谢尔盖,等人。'Mocogan:分解运动和内容以生成视频。'IEEE 计算机视觉和模式识别会议论文集。2018.
  6. 克拉克、艾丹、杰夫·多纳休和凯伦·西蒙尼安。'复杂数据集上的对抗性视频生成。'arXiv 预印本 arXiv:1907.06571 (2019)。
  7. 布鲁克斯、蒂姆等人。'生成动态场景的长视频。'神经信息处理系统的进展 35 (2022): 31769-31781。
  8. 严,威尔逊,等人。'Videogpt:使用 vq-vae 和 Transformer 生成视频。'arXiv 预印本 arXiv:2104.10157 (2021)。
  9. 吴晨飞,等。'女娲:神经视觉世界创建的视觉合成预训练。'欧洲计算机视觉会议。Cham:施普林格自然瑞士,
  10. 何乔纳森等人。'Imagen 视频:使用扩散模型生成高清视频。'arXiv 预印本 arXiv:2210.02303 (2022)。
  11. 布拉特曼、安德烈亚斯等人。'对齐你的潜在特征:高分辨率视频合成与潜在扩散模型。'IEEE/CVF 计算机视觉和模式识别会议论文集。2023.
  12. 古普塔、阿格里姆等人。'使用扩散模型生成逼真的视频。'arXiv 预印本 arXiv:2312.06662 (2023)。
  13. 瓦斯瓦尼、阿什什等人。'你所需要的就是注意力。'_神经信息处理系统的进展_30 (2017)。
  14. 布朗、汤姆等人。'语言模型是小样本学习者。'_神经信息处理系统的进展_33(2020):1877-1901。
  15. 多索维茨基,阿列克谢,等人。'一张图像相当于 16x16 个单词:用于大规模图像识别的 Transformer。'arXiv 预印本 arXiv:2010.11929 (2020)。
  16. 阿纳布、阿努拉格等人。'Vivit:视频视觉转换器。'IEEE/CVF 计算机视觉国际会议论文集。2021.
  17. 他,凯明,等人。'蒙面自动编码器是可扩展的视觉学习者。'IEEE/CVF 计算机视觉和模式识别会议论文集。2022.
  18. 德加尼、穆斯塔法等人。'Patch n'Pack:NaViT,适用于任何宽高比和分辨率的视觉转换器。'arXiv 预印本 arXiv:2307.066304 (2023)。
  19. 罗姆巴赫、罗宾等人。'利用潜在扩散模型进行高分辨率图像合成。'IEEE/CVF 计算机视觉和模式识别会议论文集。2022.
  20. Kingma、Diederik P. 和马克斯·威灵。'自动编码变分贝叶斯。'arXiv 预印本 arXiv:1312.6114 (2013)。
  21. 索尔 - 迪克斯坦、贾沙等人。'利用非平衡热力学进行深度无监督学习。'机器学习国际会议。PMLR,
  22. 何乔纳森、阿杰·贾恩和彼得·阿贝尔。'去噪扩散概率模型。'_神经信息处理系统的进展_33(2020):6840-6851。
  23. 尼科尔、亚历山大·奎因和普拉富拉·达里瓦尔。'改进的去噪扩散概率模型。'国际机器学习会议。PMLR,
  24. 达里瓦尔、普拉富拉和亚历山大·奎因·尼科尔。'扩散模型在图像合成方面击败了 GAN。'神经信息处理系统的进展。2021.
  25. 卡拉斯、泰罗等人。'阐明基于扩散的生成模型的设计空间。'_神经信息处理系统的进展_35 (2022): 26565-26577。
  26. 皮布尔斯、威廉和谢赛宁。'带有变压器的可扩展扩散模型。'IEEE/CVF 国际计算机视觉会议论文集。2023.
  27. 陈、马克等人。'从像素进行生成预训练。'机器学习国际会议。PMLR,
  28. 拉梅什、阿迪亚等人。'零镜头文本到图像生成。'国际机器学习会议。PMLR,
  29. 于家辉,等。'扩展自回归模型以生成内容丰富的文本到图像。'arXiv 预印本 arXiv:2206.10789 2.3 (2022): 5.
  30. 贝特克、詹姆斯等人。'通过更好的字幕改进图像生成。'计算机科学。 2.3 (2023): 8
  31. 拉梅什、阿迪亚等人。'具有剪辑潜在特征的分层文本条件图像生成。'arXiv 预印本 arXiv:2204.06125 1.2 (2022): 3.
  32. 孟陈林,等。'Sdedit:使用随机微分方程引导图像合成和编辑。'arXiv 预印本 arXiv:2108.01073 (2021)。

目录

  1. 作为世界模拟器的视频生成模型
  2. 将视觉数据转化为补丁
  3. 视频压缩网络
  4. 时空潜在斑块
  5. 用于视频生成的缩放变压器
  6. 可变的持续时间、分辨率、宽高比
  7. 采样灵活性
  8. 改进的框架和构图
  9. 语言理解
  10. 通过图像和视频进行提示
  11. DALL·E 图像动画
  12. 扩展生成的视频
  13. 视频到视频编辑
  14. 连接视频
  15. 图像生成能力
  16. 新兴的模拟功能
  17. 讨论
  18. 参考
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • DigitalOcean 云主机注册与创建指南
  • KWDB 3.1.0 进阶实战:千万级时序写入、监控与运维
  • 转行 Python 开发需知的 11 个核心常识
  • OpenClaw 本地部署与飞书机器人接入指南
  • Kotlin 扩展函数与属性详解及示例
  • VS Code 前端开发必备:10 款实用插件与配置指南
  • 扩散模型原理与图像生成实战
  • Kotlin 程序员面试算法:栈与队列相关题目解析
  • 相干伊辛机在医疗领域及医疗AI领域的应用前景分析
  • VSCode 接入智谱 GLM-4 与自定义大模型配置指南
  • TypeTale 字字动画:免费 AIGC 视频创作工具
  • 仿 Mudou 库 one thread per loop 式并发服务器实现:边缘测试与性能测试
  • OpenClaw 完整指南:从零搭建 AI 助理
  • Virt-A-Mate (VAM) 虚拟现实交互软件技术特性介绍
  • Claude Code Viewer: Web 端会话管理工具
  • Ubuntu22.04 安装 ROS2 及 MoveIt2 实现运动规划
  • 无人机飞行空域申请全流程指南
  • 如何将 Python 文件打包为可执行 EXE 程序
  • Windows 系统下如何更新 npm 及 Node.js 至最新版本
  • 基于 SFT 微调提升大模型长文本生成能力

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online