Sora 是世界模拟器吗?通用世界模型综述解析
引言
世界模型(World Models)是指通过预测未来的范式对数字世界和物理世界进行理解,是通往实现通用人工智能(AGI)的关键路径之一。其核心思想是让智能体在内部构建一个环境的动态表示,从而能够在'想象'中规划行动,减少对真实环境交互的依赖。
在视频生成领域,OpenAI 发布的 Sora 引起了广泛关注。Sora 具有极强的仿真能力,可以展现出对物理世界的初步理解。视频生成领军企业 Runway 在技术博客中表示,文生视频系统 Gen-2 的下一代产品将会通过通用世界模型来实现。在自动驾驶领域,Tesla 和 Wayve 均表示在利用世界模型的预测未来特性构建其端到端自动驾驶系统。在更广泛的通用机器人智能领域,Yann LeCun 多次在演讲中表示对世界模型潜力的极大关注,并预言世界模型将会取代自回归模型成为新一代智能系统的基础。
为了对世界模型的最新进展进行全面探索和总结,近日,北京极佳视界科技有限公司的研究人员联合国内外多家单位(中国科学院自动化研究所、新加坡国立大学、中国科学院计算技术研究所、上海人工智能实验室、迈驰智行、西北工业大学、清华大学等)推出了全球首篇通用世界模型综述。该综述通过 260 余篇文献,对世界模型在视频生成、自动驾驶、智能体、通用机器人等领域的研究和应用进行了详尽的分析和讨论。另外,该综述还审视了当前世界模型的挑战和局限性,并展望了它们未来的发展方向。

世界模型通过对未来的预测来增进对世界的理解。如下图所示,世界模型的预测能力对于视频生成、自动驾驶以及智能体的发展至关重要,这三者代表了世界模型研究的主流应用方向。
首先,视频生成世界模型是指利用世界模型技术来生成和编辑视频,以便理解和模拟真实世界的情景。通过这种方式,能够更好地了解和表达复杂的视觉信息,为艺术创作提供了全新的可能性。
其次,自动驾驶世界模型是指利用视频生成和预测技术来创造和理解驾驶场景,并从这些场景中学习驾驶行为和策略,这对于实现端到端的自动驾驶系统具有重要意义。
最后,智能体世界模型是指利用视频生成和预测技术在动态环境中建立智能体与环境的交互,与自动驾驶模型不同,智能体世界模型构建的是适用于各种环境和情境的智能策略网络;这些智能体可能是虚拟的,例如在游戏中控制角色的行为,也可能是实体的,例如控制机器人在物理世界中执行任务;通过这种方式,智能体世界模型为实现智能互动和智能控制提供了新的解决方案。
视频生成领域
模型演进
近年来,视频生成模型呈现出了多样化和创新化的发展趋势,不同的模型方法相继涌现并取得了令人瞩目的生成效果。
- 基于 GAN 的模型:在 2021 年之前,以 GAN 为基础的模型(IRC-GAN、TGANs-C、TFGSN、StoryGAN、TiVGAN 等)主导了视频生成领域。这类模型将生成器和判别器网络进行对抗训练,使得生成的视频更加真实,但在长时序一致性上存在挑战。
- 扩散建模:随着技术的发展,基于扩散建模的模型(Imagen Video、SVD、CogVideo 等)开始出现。扩散建模将视频信号编码到隐空间,引入一个降噪过程来生成视频,通过在隐空间多步降噪从纯噪声中解码恢复出高质量视频,显著提升了生成质量。
- 自回归建模:基于自回归建模的模型(GODIVA、VideoGPT 等)使用预测下一个视觉 Token 的方法,逐步生成下一个时间对应的视频内容。这种方法能够捕捉时间序列中的依赖关系,生成连贯和真实的视频,但推理速度较慢。
- 掩码建模:掩码建模(MAGVIT、VideoPoet、WorldDreamer 等)则通过在训练过程中对部分视觉信息进行遮挡,并逐步恢复出掩码区域,最终得到无掩码的清晰视频。这种方法在预训练阶段效率较高,适合大规模数据学习。
Sora 技术分析
Sora 是最近备受瞩目的视频生成模型,其技术方案依赖于上图的扩散模型架构。由于 Sora 是闭源的,本综述的相关分析主要基于其技术报告。Sora 主要包括三个核心部分:
- 压缩模型:该模型将原始视频在时间和空间上进行压缩,转换成隐空间的特征进行表示,并且有一个解码器可以将隐空间特征映射回原始视频。这种时空压缩机制大大降低了计算复杂度。
- 基于 Transformer 的扩散模型:与 DiT(Scalable Diffusion Models with Transformers)方法类似,该模型在隐空间中对含有噪声的视觉特征不断进行降噪处理。Transformer 架构使其能够处理长序列依赖,增强了视频的时间一致性。
- 语言模型:使用大语言模型将用户的输入编码为详细的 prompts,以此控制视频的生成。这使得文本到视频的生成更加精准可控。





