算法

未来已来 | 最强『世界模型』问世，AI获得“想象力“，用意念脑补周围世界，OpenAI已关注!

Ne0inhk

25 Dec 2024 — 16 min read

未来已来 | 最强『世界模型』问世，AI获得"想象力"，用意念脑补周围世界，OpenAI已关注!

原创 AI产品汇 2024年11月21日 07:16广东

“世界模型，一直是人类所追求的终极目标，人类通过感知周围环境、采取行动和与他人互动来导航和与三维世界互动。世界模型（WMs）旨在通过预测未来的世界状态（例如，场景中对象的存在、属性和位置）来模拟人类的理解和互动，从而帮助智能体做出明智的决策。通常，在不熟悉的环境中，具身代理必须通过物理探索获得新的观察结果，从而更好的了解其周围的环境，这不可避免地是昂贵、不安全和耗时的。然而，如果智能体能够通过心理模拟探索来想象隐藏的视图，它就可以在不付出体力的情况下更新自己的信念。这使代理能够采取更明智的行动并做出更稳健的决策。为了构建能够在物理世界中进行天马行控探索的智能体，作者提出了生成世界探索者（Genex），这是一种视频生成模型，它以智能体当前的自我中心（第一人称）视图为条件，将预期的运动方向作为动作输入，并生成未来的自我中心观察。借助Genex，代理能够通过富有想象力的探索想象隐藏的视图，并修改其信念。修改后的信念使代理人能够采取更明智的行动。”

项目主页-https://generative-world-explorer.github.io/ #introduction

代码链接-https://github.com/Beckschen/genex

论文链接-https://arxiv.org/pdf/2411.11844

01-Genex背景简介

www.zeeklog.com - 未来已来 | 最强『世界模型』问世，AI获得“想象力“，用意念脑补周围世界，OpenAI已关注!

人类通过感知周围环境、采取行动和与他人互动来导航和与三维世界互动。通过这些相互作用，他们形成了模拟世界的心理模型。这些模型允许对现实进行内部表示，通过语言和图像辅助推理、解决问题和预测。

与此同时，这种对自然智能的理解激发了人工智能系统的发展，这些系统可以创建心理模型的计算类似物。这些世界模型（WMs）旨在通过预测未来的世界状态（例如，场景中对象的存在、属性和位置）来模拟人类的理解和互动，从而帮助智能体做出明智的决策。最近，生成视觉模型对开发用于世界预测模拟的世界模型越来越感兴趣。然而，这些工作只关注状态转移概率，而没有明确地建模代理的观察和信念。

显式地对观察和信念进行建模至关重要，因为我们经常处理真实世界状态未知的部分可观察环境。具身代理本质上是POMDP代理：代理对环境只有部分观察，而不是完全观察。为了做出理性的决策，主体必须形成一种信念，即对其当前所处环境的估计。这种信念可能是不完整的或有偏见的，但可以通过物理探索环境获得的观测结果进行修正。

通常，在不熟悉的环境中，具身代理必须通过物理探索获得新的观察结果，从而更好的了解其周围的环境，这不可避免地是昂贵、不安全和耗时的。然而，如果智能体能够通过心理模拟探索来想象隐藏的视图，它就可以在不付出体力的情况下更新自己的信念。这使代理能够采取更明智的行动并做出更稳健的决策。

考虑上图中的场景，假设您正在接近十字路口。前面的灯是绿色的，但你突然注意到前面的黄色出租车突然停了下来。一股混乱和焦虑的浪潮袭来，让你不确定它停止的原因。在那一刻，对情况进行身体调查是不安全的，甚至是不可能的。然而，站在你自己想象中的出租车位置，从它的角度想象周围的环境，你会感觉到出租车令人困惑的行为背后可能有一个动机：也许救护车正在靠近。因此，由于您的想象力，您为应急车辆扫清了道路，这是一个及时而果断的选择。

02-Genex算法简介

，时长02:19

为了构建能够在物理世界中进行天马行控探索的智能体，作者提出了生成世界探索者（Genex），这是一种视频生成模型，它以智能体当前的自我中心（第一人称）视图为条件，将预期的运动方向作为动作输入，并生成未来的自我中心观察。尽管先前的工作可以基于3D模型渲染场景的新视图，但有限的渲染距离和有限的视场限制了生成视频的范围和连贯性。

幸运的是，视频生成提供了扩展探索范围的潜力。为了解决FOV约束，作者利用全景表示来训练具有球面一致性学习的视频扩散模型。因此，所提出的Genex模型实现了令人印象深刻的生成质量，同时在整个长距离探索过程中保持了连贯性和3D一致性。

此外，Genex可以应用于具体决策。借助Genex，代理能够通过富有想象力的探索想象隐藏的视图，并修改其信念。修改后的信念使代理人能够采取更明智的行动。从技术上讲，作者将代理的行为定义为具有想象驱动信念修正的POMDP的扩展。值得注意的是，所提出的Genex可以自然地扩展到多智能体场景，其中一个智能体可以在精神上导航到其他智能体的位置，并根据其他智能体想象的信念更新自己的信念。

03-Genex算法能力展示

03.01-Genex导航能力

，时长00:45

如上面的视频所示，训练有素的扩散器可以无缝地适应世界探险家的角色，支持在充满想象力的世界中导航。作者使用LMM，如GPT-4o，作为通过自我中心视图控制运动的代理。代理可以向前移动或改变方向，向前移动由我们的视频生成器生成，角度变化由全景图像处理。代理可以执行无限的动作，使其扩散器成为生成世界的探索者。

03.02-勘探一致性能力

，时长00:44

如上面的视频所示，为了确保生成质量，作者引入了导航周期一致性。Genex导航一条随机采样的闭合路径，返回原点。在最佳情况下，开始视图和结束视图是相同的，确保了世界建模的一致性。

03.03-预测未来的能力

，时长00:36

如上面的视频所示，Genex为具身AI代理提供了新的智能水平。对于涉及决策的单代理场景，想象一下当警笛响起时，你开车在街上行驶，但你看不到信号源。有了Genex，你就能预测未来。它显示一辆救护车就在拐角处。你停止过马路，为它让路。对于涉及交互的多智能体场景，假设你在红灯前等待。你看到一个行人和一辆驶来的汽车，一切似乎都很好。但Genex可以帮助你认识到行人看不见汽车。同样，汽车看不见行人。你的车挡住了他们的视线。意识到这一点，你立即采取行动警告他们，防止碰撞。

04-Genex算法流程

上图展示了Genex算法的整体训练流程。图a展示了像素网格坐标系和球面极坐标系。图b展示了空间一致性学习过程，旋转的球形全景可以转换为2D全景或六视图图像。图c展示了空间一致性自我中心全景视频扩散模型。详细的步骤如下所述：

首先，从相机位置处随机的采样一些样本，作者随机采样相机方向以获得边缘一致性；

然后，将视频全景图同时输入一个ST-VAE编码器中提取特征表示；

接着，将其结果输入到一个扩散模型中执行前向去噪处理；

接着，将添加条件操作的图像全景送入一个Encoder中提取特征，并将其结果与前向去噪特征一起送入一个UNet模型中；

最后，经过Decoder操作，生成最终的结果，并将其送入一致性学习模块SCL中进行迭代优化。

05-Genex算法实现细节

05.01-Genex探索世界流程

对于一个机器探索者，如家用机器人，旨在在其环境中导航并寻找以前未访问的位置。通过整合生成模型，作者提出了生成世界探索者（Genex）的概念，实现了在想象领域内的空间探索，类似于人类的心理探索。

如上图所示，Genex能够通过生成视频序列来探索一个富有想象力的世界，给定RGB观察值、探索方向和距离（a）。Genex基于物理环境，可以进行GPT辅助的目标无关的世界想象探索（b）和目标驱动的想象探索（c）。

05.02-想象驱动的信念修正过程

作者提出了想象驱动的信念修正，该修正使用想象探索来增强POMDP代理，在时间步长之间进行即时信念修正。在想象过程中，作者冻结时间，创造一个想象的世界，从而去掉时间变量t，用变量上的帽子定义一个想象空间。

如上图所示，Physical表示物理探索，即实际探索。Imaginative表示想象探索，通过想象性探索可以实现与物理探索相同的信念更新，并显示出在不同时刻出看到的目标的样子。

05.03-Agent推理过程

上图展示了单Agent推理与想象和多Agent推理、规划与想象。图a展示了单个代理可以想象以前未观察到的视图，从而更好地理解环境。图b展示了在多智能体场景中，智能体根据对情况的更完整理解推断他人的观点以做出决策。输入和生成的图像是全景的；提取立方体用来进行可视化。

05.04-EQA应答流程

上图展示了EQA应答的整体流程。它遵循Imagination增强的POMDP，用想象力更新其信念，从而做出更明智的决定。整个过程包含：观察模块、想象模块和决策模块，几个模块之间通过大语言模型联系起来。

05.05-数据集构建过程

作者使用Unity、Blender和虚幻引擎生成了一个大规模数据集。作者创建了四个不同的场景，每个场景代表一种不同的视觉风格（真实、动画、低纹理和几何），如上图所示：作者用每个数据集训练一个模型，对于四个导航视频扩散器，作者在所有场景中进行交叉验证，从而评估它们的泛化能力。

06-Genex算法性能评估

06.01-主观效果性能评估

如上图所示，作者展示了该算法与多个最先进的3D重建模型在相同的全景输入上的重建效果，从而实现新颖的视图合成。通过观察与分析，我们可以发现：该模型在对象的新颖视图合成中实现了更高的质量，并提高了背景合成的一致性。

06.02-客观指标性能评估

作为一个强有力的基线，作者通过为立方体的每个面训练六个单独的扩散模型来开发一个六视图导航器，独立地表示360°视图。该基线可以与2D扩散模型很好地对齐，但与全景方法形成对比，全景方法在保持一致的环境背景方面特别有效。

为了在视频质量评估方面与Genex进行公平比较，作者将六视图基线预测重新投影到全景图中。如上表所示，Genex在多项评估指标上面远优于基线方法。

如上表所示，Genex在合成数据上进行了训练，展示了对现实世界场景的强大零样本可推广性。令人印象深刻的是，在UE5和其他合成数据上训练的模型可以很好地推广到室内行为视觉套件和现实世界中的室外谷歌地图街景（IECC≤0.1），而不需要额外的微调。

上表展示了Genex与多个SOTA的文生3D算法的生成效果。通过观察与分析，我们可以发现：Genex可以合成远距离物体（和背景场景）的新颖视图，与地面真实情况的差异最小，超越了SoTA方法。

如上表所述，作者评估了单智能体和多智能体决策算法。作者使用单模态是指只接收文本上下文的代理，而多模态推理在提示和以自我为中心的视觉视图时演示LLM决策。Gennex展示了配备认知世界模型的代理模型的性能。

通过观察与分析，我们可以发现：1）没有想象力的愿景可能会误导GPT。2）Genex具有增强人类认知能力的潜力。人员绩效结果揭示了几个关键见解。首先，与仅依赖文本的人相比，使用视觉和文本信息的人可以获得更高的决策准确性。这表明多模态输入增强了推理能力。其次，当提供由Genex生成的想象视频时，人类做出的决策比传统的仅图像设置更准确、更明智，特别是在需要高级空间推理的多智能体场景中。这些发现证明了Genex在提高有效社交协作和情境意识的认知能力方面的潜力。

07-Genex算法效果展示