1. 概述
1.1 什么是世界模型?
**世界模型(World Models)**是人工智能系统对环境的内部表示或模拟,旨在:
- 理解世界机制:构建内部表示以理解环境的运作规律
- 预测未来状态:预测环境的动态变化以指导决策
1.2 核心问题
论文标题提出了世界模型研究的两个核心问题:
- 理解世界(Understanding World):构建对环境的内部表示,理解物理规律和因果关系,学习世界的结构和机制。
- 预测未来(Predicting Future):预测环境的未来状态,模拟可能的行动结果,支持规划和决策。
1.3 两大功能分类
根据综述论文,世界模型可分为两大主要功能:
| 功能类型 | 目标 | 应用 |
|---|---|---|
| 理解型 | 构建内部表示,理解世界机制 | 知识表示、因果推理、场景理解 |
| 预测型 | 预测未来状态,模拟决策结果 | 强化学习、规划、自动驾驶 |
2. 世界模型的定义
2.1 经典定义
世界模型是智能体(Agent)对环境的内部表示或模拟,用于:
- 预测环境的动态和结果
- 理解环境的结构和规律
- 支持决策和规划
2.2 数学表示
在强化学习框架下,世界模型通常表示为: $$s_{t+1} = f(s_t, a_t)$$ 其中:
- $s_t$:当前状态
- $a_t$:当前动作
- $s_{t+1}$:下一状态
- $f$:世界模型(状态转移函数)
2.3 扩展定义
现代世界模型不仅预测状态转移,还包括:
- 观察模型:$o_t = g(s_t)$,从状态生成观察
- 奖励模型:$r_t = h(s_t, a_t)$,预测奖励
- 终止模型:$d_t = k(s_t)$,预测 episode 是否结束
3. 发展时间线
3.1 早期阶段(1980s-1990s)
1980s: 统计学习方法
- 时期特点:使用概率模型刻画环境动态,应用隐马尔可夫模型(HMM)与卡尔曼滤波构建内部世界模型。
- 主要挑战:处理高维感知输入时计算量爆炸,模型表达能力有限,难以处理复杂环境。
- 代表方法:隐马尔可夫模型(HMM)、卡尔曼滤波(Kalman Filter)、粒子滤波(Particle Filter)。
1989: Dyna 架构
- 提出者:Richard Sutton
- 核心思想:智能体可在内部模拟环境,通过内部模拟进行规划,结合真实经验和模拟经验学习。
- 架构组成:
- 直接强化学习(Direct RL):从真实环境中学习

