论文来源: Understanding World or Predicting Future? A Comprehensive Survey of World Models arXiv 编号: 2411.14499v2
作者: Jingtao Ding, Yunke Zhang, Yu Shang, Yuheng Zhang, et al.
发布时间: 2024 年 11 月
1. 概述
1.1 什么是世界模型?
世界模型(World Models)是人工智能系统对环境的内部表示或模拟,旨在:
- 理解世界机制:构建内部表示以理解环境的运作规律
- 预测未来状态:预测环境的动态变化以指导决策
1.2 核心问题
论文标题提出了世界模型研究的两个核心问题:
- 理解世界(Understanding World):构建对环境的内部表示,理解物理规律和因果关系。
- 预测未来(Predicting Future):预测环境的未来状态,模拟可能的行动结果。
1.3 两大功能分类
| 功能类型 | 目标 | 应用 |
|---|---|---|
| 理解型 | 构建内部表示,理解世界机制 | 知识表示、因果推理、场景理解 |
| 预测型 | 预测未来状态,模拟决策结果 | 强化学习、规划、自动驾驶 |
2. 世界模型的定义
2.1 经典定义
世界模型是智能体(Agent)对环境的内部表示或模拟,用于预测环境的动态和结果,支持决策和规划。
2.2 数学表示
在强化学习框架下,世界模型通常表示为:
s_{t+1} = f(s_t, a_t)
其中 s_t 为当前状态,a_t 为当前动作,f 为世界模型(状态转移函数)。
2.3 扩展定义
现代世界模型不仅预测状态转移,还包括观察模型、奖励模型和终止模型。
3. 发展时间线
3.1 早期阶段(1980s-1990s)
- 1980s: 统计学习方法,使用 HMM、卡尔曼滤波等。
- 1989: Dyna 架构提出,将强化学习与内部世界概念结合。
- 1990: Jürgen Schmidhuber 提出'世界模型'概念,使用 RNN 构建简单世界模型。
3.2 深度学习时代(2010s)
- 2010s 初期: 引入 CNN 处理视觉输入,RNN 捕捉时间序列。
- 2015-2017: 基于模型的深度强化学习兴起,如 I2A、MBVE。
3.3 现代世界模型时代(2018-2020)
- 2018: World Models 论文发布,提出 VAE-RNN 架构和梦境训练。
- 2019: PlaNet 和 Dreamer 系列开始,引入 RSSM 模型。

