Sora 是世界模拟器吗?通用世界模型综述解析
综述了通用世界模型的最新进展,涵盖视频生成、自动驾驶及智能体机器人三大应用领域。文章详细分析了 Sora 等代表性模型的技术架构,包括压缩模型、Transformer 扩散模型及语言模型的控制机制。同时探讨了 RSSM、JEPA、Transformer 及扩散模型在智能体规划中的应用。针对当前世界模型面临的因果推理、物理定律模拟、泛化能力、计算效率及性能评估五大挑战进行了深入剖析,并展望了未来结合物理引擎、提升外推能力及优化评估体系的发展方向。

综述了通用世界模型的最新进展,涵盖视频生成、自动驾驶及智能体机器人三大应用领域。文章详细分析了 Sora 等代表性模型的技术架构,包括压缩模型、Transformer 扩散模型及语言模型的控制机制。同时探讨了 RSSM、JEPA、Transformer 及扩散模型在智能体规划中的应用。针对当前世界模型面临的因果推理、物理定律模拟、泛化能力、计算效率及性能评估五大挑战进行了深入剖析,并展望了未来结合物理引擎、提升外推能力及优化评估体系的发展方向。

世界模型(World Models)是指通过预测未来的范式对数字世界和物理世界进行理解,是通往实现通用人工智能(AGI)的关键路径之一。其核心思想是让智能体在内部构建一个环境的动态表示,从而能够在'想象'中规划行动,减少对真实环境交互的依赖。
在视频生成领域,OpenAI 发布的 Sora 引起了广泛关注。Sora 具有极强的仿真能力,可以展现出对物理世界的初步理解。视频生成领军企业 Runway 在技术博客中表示,文生视频系统 Gen-2 的下一代产品将会通过通用世界模型来实现。在自动驾驶领域,Tesla 和 Wayve 均表示在利用世界模型的预测未来特性构建其端到端自动驾驶系统。在更广泛的通用机器人智能领域,Yann LeCun 多次在演讲中表示对世界模型潜力的极大关注,并预言世界模型将会取代自回归模型成为新一代智能系统的基础。
为了对世界模型的最新进展进行全面探索和总结,近日,北京极佳视界科技有限公司的研究人员联合国内外多家单位(中国科学院自动化研究所、新加坡国立大学、中国科学院计算技术研究所、上海人工智能实验室、迈驰智行、西北工业大学、清华大学等)推出了全球首篇通用世界模型综述。该综述通过 260 余篇文献,对世界模型在视频生成、自动驾驶、智能体、通用机器人等领域的研究和应用进行了详尽的分析和讨论。另外,该综述还审视了当前世界模型的挑战和局限性,并展望了它们未来的发展方向。

世界模型通过对未来的预测来增进对世界的理解。如下图所示,世界模型的预测能力对于视频生成、自动驾驶以及智能体的发展至关重要,这三者代表了世界模型研究的主流应用方向。
首先,视频生成世界模型是指利用世界模型技术来生成和编辑视频,以便理解和模拟真实世界的情景。通过这种方式,能够更好地了解和表达复杂的视觉信息,为艺术创作提供了全新的可能性。
其次,自动驾驶世界模型是指利用视频生成和预测技术来创造和理解驾驶场景,并从这些场景中学习驾驶行为和策略,这对于实现端到端的自动驾驶系统具有重要意义。
最后,智能体世界模型是指利用视频生成和预测技术在动态环境中建立智能体与环境的交互,与自动驾驶模型不同,智能体世界模型构建的是适用于各种环境和情境的智能策略网络;这些智能体可能是虚拟的,例如在游戏中控制角色的行为,也可能是实体的,例如控制机器人在物理世界中执行任务;通过这种方式,智能体世界模型为实现智能互动和智能控制提供了新的解决方案。
近年来,视频生成模型呈现出了多样化和创新化的发展趋势,不同的模型方法相继涌现并取得了令人瞩目的生成效果。
Sora 是最近备受瞩目的视频生成模型,其技术方案依赖于上图的扩散模型架构。由于 Sora 是闭源的,本综述的相关分析主要基于其技术报告。Sora 主要包括三个核心部分:

除了视频生成方向,世界模型在自动驾驶场景下也存在巨大的应用价值,近些年来被研究者们不断探索。下图展示了自 2023 年以来,世界模型在自动驾驶场景下的研究发展,其中包括三种类型:端到端自动驾驶、驾驶场景 2D 模拟器和驾驶场景 3D 模拟器。
在自动驾驶领域,世界模型可以用来构建环境的动态表示。对未来的准确预测对于确保在各种工况下进行安全驾驶至关重要。因此,端到端自动驾驶方法(Iso-Dream、MILE、SEM2 等)通过最小化搜索空间并在 CARLA v1 模拟器上集成视觉动态的明确解耦来应对这些挑战。TrafficBots 则是另一种基于世界模型的端到端驾驶方法,其侧重于预测给定情景中各个智能体的行为。通过考虑每个智能体的目的地,TrafficBots 利用条件变分自动编码器赋予各个智能体独特的特征,从 BEV(鸟瞰图)视角实现动作预测。
上述方法在 CARLA v1 上进行了实验,但面临 CARLA v2 中数据低效性的挑战。为了解决 CARLA v2 场景的复杂性,Think2Drive 提出一种基于模型的强化学习方法用于自动驾驶,鼓励规划器在学习的潜在空间中进行'思考'。该方法通过利用低维状态空间和张量的并行计算显著提高了训练效率。
高质量的数据是训练深度学习模型的基石。虽然互联网文本和图像数据成本较低且易于获取,但在自动驾驶领域获取数据存在着诸多挑战,原因包括传感器复杂性和隐私问题等因素。特别是在获取直接影响实际驾驶安全的长尾目标时更是如此。世界模型对于理解和模拟复杂的物理世界至关重要。
一些最近的研究已经将扩散模型引入到自动驾驶领域,以构建世界模型作为神经模拟器,生成所需的自主 2D 驾驶视频。此外,一些方法利用世界模型生成未来场景的 3D 占用网格或 LiDAR 点云。下表提供了基于世界模型的驾驶场景数据生成方法的总结。

除了自动驾驶领域,世界模型在智能体、机器人领域也有广泛的应用。给定一个目标,智能体需要规划一系列动作完成指定任务。已经有许多成功的算法用于在已知环境中进行动态规划,然而在大多数情况下,环境是复杂和随机的,难以通过人类经验明确建模。
因此,该领域的核心主题是智能体如何在未知和复杂的环境中学习规划。解决这个问题的一种方法是让智能体从与环境的交互中积累经验,并直接从中学习行为,而不对环境的状态变化建模(即无模型强化学习)。虽然这种解决方案简单灵活,但学习过程依赖于与环境的许多交互,成本非常高昂。
World Models 是第一篇在强化学习领域引入世界模型概念的研究,其从智能体的经验中对世界的知识进行建模,并获得预测未来的能力。这项工作表明,即使是一个简单的循环神经网络模型也能够捕捉环境的动态信息,并支持智能体在该模型中学习和演化策略。这种学习范式被称为'在想象中学习'。借助世界模型,试验和失败的成本可以大大降低。
下图展示了智能体和机器人领域的世界模型发展视概览,不同颜色显示了不同结构的世界模型。其中 RSSM(PlatNet、DreamerV1、DreamerV2、DreamerV3 等)占据主导地位,而 Transformer(TransDreamer、IRIS、Genie 等)、JEPA(JEPA、MC-JEPA、A-JEPA、V-JEPA 等)和扩散模型(RoboDreamer、UniSim)从 2022 年开始越来越受到关注。
尽管近年来在通用世界模型以及特定领域应用如自动驾驶和机器人的研究急剧增加,但仍有许多挑战和机遇等待进一步探索。本综述也深入探讨了当前通用世界模型面临的复杂挑战,同时设想了其未来发展的潜在方向。
作为一种预测模型,世界建模的本质在于其推理未来的能力。该模型应能够推断以前从未遇到过的决策的结果,而不仅仅是在已知数据分布内进行预测。正如下图所示,我们期望世界模型具有反事实推理的能力,通过理性的想象推断结果。这种能力在人类中本能存在,但对于当前的 AI 系统来说仍然是一个具有挑战性的任务。
例如,想象一辆面临突发交通事故的自动驾驶车辆或者一个处于新环境的机器人。具备反事实推理能力的世界模型可以模拟它们可能采取的不同行动,预测结果,并选择最安全的响应。这将明显改善自主智能体系统的决策能力,帮助它们处理新的和复杂的情景。

虽然 Sora 的视频生成能力令人印象深刻,但有许多研究者认为将其视为世界模型为时尚早,因为它并不完全遵守物理定律。现实世界要求严格遵守物理定律,如重力、光相互作用和流体动力学。虽然 Sora 在建模运动方面有所改进,包括行人和刚体运动,但它仍然在准确模拟流体和复杂的物理现象方面表现不佳。仅通过视频 - 文本对训练是不足以理解这些复杂性的,与物理渲染器产生的数据联合训练可能是一条潜在的解决路径。未来的研究需要结合物理引擎,确保生成的视频符合牛顿力学等基本规律。
泛化能力是评估世界模型性能的关键之一,其强调的不仅是数据内插,更重要的是数据外推。例如,在自动驾驶中,真实的交通事故或异常的驾驶行为是罕见的事件。那么,学习得到的世界模型能否想象这些罕见的驾驶事件呢?这要求模型不仅要超越简单地记忆训练数据,而且要发展出对驾驶原理的深刻理解。通过从已知数据进行外推,并模拟各种潜在情况,世界模型可以更好地在现实世界中进行安全的导航。提升泛化能力需要模型具备更强的抽象能力和对底层规律的掌握。
视频生成的效率是限制其大规模应用的关键因素。为了保持视频生成的一致性,通常采用的时序一致性模块会导致生成时间大大增加。根据互联网上的新闻和分析,Sora 可能需要大约一个小时来生成一分钟的视频。尽管在图像生成领域出现了一系列基于蒸馏的方法,显著加速了生成速度,但在视频生成领域的相关研究仍然非常有限。降低计算成本、优化推理速度是实现世界模型落地的关键。
当前的世界模型的研究热点主要集中在生成式模型上,评估指标主要是生成质量,如 FID 和 FVD 等。此外,还有一些工作提出了更全面的评估基准,如 CLIPScore、T2VScore、VBench、EvalCrafter、PEEKABOO 等。然而,单独的度量数字不能全面反映世界模型的预测合理性。结合人类反馈可以使得评估变得更全面,但如何提升其效率和一致性是一个值得深入研究的方向。建立标准化的评估体系对于推动领域发展至关重要。
通用世界模型作为连接感知与决策的桥梁,正在重塑人工智能的技术格局。从视频生成到自动驾驶,再到具身智能,世界模型的应用前景广阔。尽管目前仍面临物理一致性、泛化能力及计算效率等多重挑战,但随着技术的不断迭代和跨学科研究的深入,世界模型有望成为实现 AGI 的核心基础设施。未来的研究应重点关注因果推理能力的提升、物理定律的融合以及高效评估体系的建立,以推动这一技术从理论走向大规模实际应用。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online