引言
人工智能系统如何像人类一样理解环境并规划行动?世界模型(World Models)正是为了解决这一问题而诞生的内部表示机制。它旨在构建对环境的认知,既能理解运作规律,又能预测动态变化以指导决策。2024 年发布的综述论文《Understanding World or Predicting Future?》系统梳理了这一领域从统计方法到多模态大模型的演进历程。
核心定义
在强化学习框架下,世界模型通常被定义为状态转移函数 $s_{t+1} = f(s_t, a_t)$。其中 $s_t$ 是当前状态,$a_t$ 是动作,$f$ 则是模型本身。现代定义已扩展至观察生成、奖励预测及终止判断,形成了更完整的闭环。
发展时间线
早期探索(1980s-1990s)
这一阶段主要依赖概率模型。隐马尔可夫模型(HMM)、卡尔曼滤波等工具被用于刻画环境动态,但受限于计算能力和表达能力,难以处理高维感知输入。1989 年 Richard Sutton 提出的 Dyna 架构将强化学习与内部模拟结合,开创了基于模型的 RL 先河。随后 Jürgen Schmidhuber 在博士论文中正式提出'世界模型'概念,主张 AI 应具备全面认知能力。
深度学习时代(2010s)
随着 CNN 和 RNN 的引入,神经网络开始承担动态建模任务。2015 年至 2017 年间,Imagination-Augmented Agents (I2A) 等工作尝试利用学习到的模型进行'想象',提升了样本效率。
现代范式确立(2018-2020)
2018 年 David Ha 与 Schmidhuber 发表的 World Models 论文是里程碑式的突破。其 VAE-RNN 架构通过压缩视觉输入并在潜在空间预测未来,实现了'梦境训练'。紧接着 PlaNet 和 Dreamer 系列引入了 RSSM(循环状态空间模型),结合确定性与随机性路径,显著增强了长期预测的稳定性。Dreamer-V2 和 V3 进一步在 Atari 等任务上达到或超越人类水平。
多模态与大模型时代(2024-至今)
随着 LLM 和视频生成模型(如 Sora、Genie)的兴起,世界模型正走向多模态融合。语言模型提供常识推理,视频生成模型模拟物理规律,两者结合构建了更具泛化能力的统一世界表示。
关键技术演进
表示学习 从手工特征到深度特征,再到 VAE 潜在空间和 Transformer 表示,模型对世界的压缩方式日益高效。RSSM 的提出解决了时序建模中的不确定性问题,而离散潜在表示则进一步稳定了训练过程。
动态建模 经历了从线性概率图模型到非线性神经网络,再到循环网络与 Transformer 的演变。当前的主流趋势是利用全局注意力机制捕捉长程依赖,并结合扩散模型提升生成质量。
训练方法 除了传统的监督学习,梦境训练(Dreaming)和 Dyna 风格(结合真实与模拟经验)已成为标配。对比学习和大规模预训练正在成为新的方向,以减少对像素级重构的依赖。
主要研究方向
基于模型的强化学习(Model-Based RL) 核心目标是提高样本效率和安全性。Dyna 系列、World Models 系列以及 MuZero 是其中的代表。尽管面临模型误差累积的挑战,其在规划方面的优势依然不可替代。
视频预测 从确定性预测到随机性生成,再到潜在空间操作,视频预测技术直接服务于自动驾驶场景理解和机器人运动规划。
多模态世界模型 现实世界包含视觉、语言、动作等多种信息。LWM(Language World Models)和 Genie 等工作尝试统一这些模态,支持跨模态推理和交互式环境生成。
可解释性与泛化 结构化世界模型和因果推理旨在让模型不仅会预测,还能理解因果关系。元学习和 Sim-to-Real 迁移则致力于解决新环境下的适应性问题。
应用领域
- 强化学习:在 Atari 游戏和连续控制任务中减少真实交互次数。
- 自动驾驶:用于场景预测、轨迹验证及数据增强,如 CARLA 模拟器中的集成应用。
- 机器人:DayDreamer 和 RoboDreamer 展示了在真实物理环境中进行策略学习的潜力。
- 游戏 AI:MuZero 在围棋和象棋上的表现,以及 Genie 生成的可玩关卡。
- 社会模拟:Generative Agents 等研究利用 LLM 模拟人类行为和社会互动。

