OpenAI 文生视频大模型 Sora 技术深度解析
OpenAI 发布的首个文生视频模型 Sora 支持长达 60 秒的视频生成,具备单视频多角度镜头和世界模型能力。技术核心采用扩散 Transformer 架构,将视频压缩为时空 Patches 进行训练,结合 DALL·E 3 提升文本理解。虽然存在物理建模缺陷,但其在分辨率、纵横比适应性及构图方面表现优异。该技术旨在构建世界模拟器,对影视、游戏等行业有深远影响,同时也面临安全与伦理挑战。

OpenAI 发布的首个文生视频模型 Sora 支持长达 60 秒的视频生成,具备单视频多角度镜头和世界模型能力。技术核心采用扩散 Transformer 架构,将视频压缩为时空 Patches 进行训练,结合 DALL·E 3 提升文本理解。虽然存在物理建模缺陷,但其在分辨率、纵横比适应性及构图方面表现优异。该技术旨在构建世界模拟器,对影视、游戏等行业有深远影响,同时也面临安全与伦理挑战。

2 月 16 日,OpenAI 正式发布其首个文生视频模型 Sora。继 Runway、Pika、谷歌和 Meta 之后,OpenAI 正式加入视频生成领域的竞争。Sora 的发布在 AI 领域引起了巨大反响,被视为对全球 AI 视频初创企业的一次降维打击。
可以用三个词来总结 Sora 的核心特性:

Sora 是 OpenAI 最新发布的文生视频大模型。其强大之处在于不仅能生成长达一分钟的视频,还实现了视频画质的跨越式提升。它在可变持续时间、分辨率和纵横比的视频和图像上联合训练文本条件扩散模型。
Sora 是一种扩散模型。它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐转换视频。Sora 能够一次生成整个视频或扩展生成的视频以使其更长。通过让模型一次看到许多帧,解决了一个具有挑战性的问题,即确保一个主题即使暂时离开视野也能保持不变。
与 GPT 模型类似,Sora 使用 Transformer 架构,释放出卓越的扩展性能。将视频和图像表示为称为 Patches 的较小数据单元的集合,每个 Patches 都类似于 GPT 中的一个 tokens。通过统一表示数据的方式,可以在比以前更广泛的视觉数据上训练扩散 transformers,跨越不同的持续时间、分辨率和纵横比。
Sora 建立在 DALL·E 和 GPT 模型之上。它使用了 DALL·E 3,涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更忠实地遵循生成视频中用户的文本说明。
OpenAI 的真正强大在于要实现 AGI,做 World Simulators(世界模拟器),帮助人们解决需要现实世界交互的问题。

完美碾压 Runway Gen2 和 pika1.0,Sora 直接把生成视频的时长拉长到了 1 分钟!
提示:一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。
Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt
提示:电影预告片,讲述了 30 岁的太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天,盐沙漠,电影风格,用 35 毫米胶片拍摄,色彩鲜艳。
提示词中的轮胎扬起的尘土,是在汽车后面。
提示:镜头跟随一辆带有黑色车顶行李架的白色老式 SUV 在陡峭的山坡上被松树包围的陡峭土路上加速,轮胎上扬起灰尘,阳光照在 SUV 上,因为它沿着土路飞驰,为场景投下温暖的光芒。土路缓缓蜿蜒向远处,看不到其他汽车或车辆。道路两旁的树木都是红杉,到处都是绿色植物。从后方可以看到这辆车可以轻松地沿着弯道行驶,看起来好像是在崎岖的地形上崎岖不平地行驶。土路本身被陡峭的丘陵和山脉所环绕,上面是湛蓝的天空和轻薄的云彩。
Prompt: A Chinese Lunar New Year celebration video with Chinese Dragon.
提示:中国龙的中国农历新年庆祝视频。
提示:一个 60 多岁留着胡子的白发男子的特写镜头,他坐在巴黎的一家咖啡馆里,沉思着宇宙的历史,当人们走着的时候,他的眼睛聚焦在屏幕外的人身上,他几乎一动不动地坐着,他穿着羊毛外套西装外套和纽扣衬衫,戴着棕色贝雷帽和眼镜,看起来很有教授风范,最后,他微微一笑,仿佛找到了生命之谜的答案,灯光非常像电影,背景是金色的灯光和巴黎的街道和城市,景深,35 毫米电影胶片。
目前,Sora 在视频生成过程中也存在着一些缺陷,比如复杂环境中的物理效果,因果关系,空间和时间上推理上。
有时会产生身体上难以置信的动作
Prompt: Step-printing scene of a person running, cinematic film shot in 35mm. 提示:一个人奔跑的步印场景,以 35 毫米拍摄的电影胶片。
动物或人可以自发出现,尤其是在包含许多实体的场景中
Prompt: Five gray wolf pups frolicking and chasing each other around a remote gravel road, surrounded by grass. The pups run and leap, chasing each other, and nipping at each other, playing. 提示:五只灰狼幼崽在一条偏远的碎石路上嬉戏和追逐,周围环绕着草地。幼崽们奔跑跳跃,互相追逐,互相啃咬,玩耍。
不准确的物理建模和非自然物体'变形'的例子
Prompt: Basketball through hoop then explodes. 提示:篮球穿过篮筐然后爆炸。
未能将椅子建模为一个刚性物体,导致不准确的物理交互
Prompt: Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care. 提示:考古学家在沙漠中发现了一把普通的塑料椅子,正在仔细挖掘和除尘。
模拟对象和多个角色之间的复杂交互对模型来说通常具有挑战性,有时会导致幽默的生成
提示:一位头发梳得整整齐齐的祖母站在木制餐桌旁的五颜六色的生日蛋糕后面,上面摆放着许多蜡烛,表情是纯粹的喜悦和幸福,她的眼睛里闪耀着幸福的光芒。她身体前倾,轻轻地吹灭蜡烛,蛋糕上有粉红色的糖霜和洒水,蜡烛不再闪烁,祖母穿着一件装饰着花卉图案的浅蓝色衬衫,可以看到坐在桌子旁的几个快乐的朋友和家人在庆祝,失焦。这个场景被精美地捕捉,电影般的,显示了祖母和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了气氛。

Sora 是一种通用的视觉数据模型,它可以生成跨越不同持续时间、纵横比和分辨率的视频和图像,最多可生成一整分钟的高清视频。总结来说:扩散模型、Transformer 架构,是一种**'扩散 Transformer'**。
在 OpenAI 发布的技术细节中,提到以下 6 个方面:
从大型语言模型中汲取灵感,这些模型通过对互联网规模的数据进行训练来获得通才功能。但不同于大语言模型的'Tokens',Sora 采用视觉'Patches',一种高度可扩展且有效的表示,用于在不同类型的视频和图像上训练生成模型。

在高层次上,首先将视频压缩为低维潜在空间,然后将表示分解为时空'Patches',从而将视频转换为'Patches'。这种机制允许模型处理长序列数据而不受显存限制,同时保持时空一致性。
训练一个网络,可以降低视觉数据的维度。该网络将原始视频作为输入,并输出在时间和空间上都经过压缩的潜在表示。
Sora 在这个压缩的潜在空间中接受训练并随后生成视频。还训练了一个相应的解码器模型,该模型将生成的潜在对象映射回像素空间。这种变分自编码器(VAE)结构极大地减少了计算复杂度,使得训练大规模视频模型成为可能。
给定一个压缩的输入视频,提取一系列时空 Patches,这些 Patches 充当 transformer tokens。此方案也适用于图像,因为图像只是单帧视频。
基于 Patches 的表示使 Sora 能够对可变分辨率、持续时间和纵横比的视频和图像进行训练。在推理时,可以通过在适当大小的网格中排列随机初始化的 Patches 来控制生成的视频的大小。这种灵活性使得模型能够适应各种应用场景,从社交媒体短视频到电影级长镜头。
Sora 是一个扩散模型。给定输入的噪声 Patches(以及文本提示等条件信息),它被训练来预测原始的'干净'Patches。重要的是,Sora 是一个扩散 Transformers。Transformer 在语言建模、计算机视觉和图像生成等多个领域都表现出了显著的缩放特性。

通过引入注意力机制,Sora 能够捕捉长距离依赖关系,这对于理解视频中物体的连续运动和场景变化至关重要。
Sora 可以对宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频进行采样。这使 Sora 可以直接以原始纵横比为不同设备创建内容。它还能够在以全分辨率生成之前以较小的尺寸快速制作内容原型,所有这些都使用相同的模型。

根据经验发现,以原始纵横比对视频进行训练可以改善构图和取景。将 Sora 与模型的一个版本进行了比较,该模型将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。在方形裁剪上训练的模型(左)有时会生成视频,其中主体仅部分可见。相比之下,Sora(右)的视频改善了取景。

训练文本到视频生成系统需要大量带有相应文本标题的视频。OpenAI 应用 DALL·E 3 到视频。首先训练一个高度描述性的字幕器模型,然后使用它为训练集中的所有视频生成文本字幕。发现对高度描述性视频字幕的培训可以提高文本保真度以及视频的整体质量。
与 DALL·E 3,还利用 GPT 将简短的用户提示转换为更长的详细字幕,然后发送到视频模型。这使 Sora 能够准确遵循用户提示生成高质量的视频。这种多模态对齐技术确保了文本语义与视觉内容的精确匹配。
Sora 的出现标志着视频生成技术迈上了一个新台阶。其背后的世界模型理念不仅仅是为了生成视频,更是为了构建一个能够理解物理世界运行规律的通用智能系统。
尽管 Sora 展示了强大的能力,但其潜在的滥用风险也不容忽视。Deepfake 技术的进步可能带来虚假信息传播的风险。OpenAI 表示将采取安全措施,包括水印技术和访问控制,以确保技术被负责任地使用。
此外,模型在复杂物理交互和因果推理上的局限性表明,完全模拟真实世界仍需时日。未来的研究将集中在提高物理一致性、减少幻觉以及增强对长时序逻辑的理解上。
Sora 代表了当前文生视频领域的最高水平之一。通过结合扩散模型、Transformer 架构和强大的语言理解能力,OpenAI 为 AI 视频生成树立了新的标杆。随着技术的不断迭代和完善,我们有理由期待更加逼真、可控和智能的视频生成工具问世。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online