世界模型发展脉络整理：理解世界或预测未来？综合综述

综述由AI生成世界模型是人工智能系统对环境的内部表示，旨在理解机制与预测未来。综述梳理了从 1980 年代统计方法到 2024 年多模态大模型的发展脉络。关键技术涵盖 VAE、RNN、RSSM 及 Transformer 架构演进。应用领域包括强化学习、自动驾驶、机器人及社会模拟。当前趋势聚焦多模态融合、大规模预训练、物理先验嵌入及 Sim-to-Real 迁移。核心挑战在于模型误差累积、长期预测难度及泛化能力。该研究为具身智能与通用 AI 提供了理论框架与技术路径。

GopherDev发布于 2026/3/22更新于 2026/5/1210 浏览

1. 概述

1.1 什么是世界模型？

**世界模型（World Models）**是人工智能系统对环境的内部表示或模拟，旨在：

理解世界机制：构建内部表示以理解环境的运作规律
预测未来状态：预测环境的动态变化以指导决策

1.2 核心问题

论文标题"Understanding World or Predicting Future?"提出了世界模型研究的两个核心问题：

理解世界（Understanding World）：
- 构建对环境的内部表示
- 理解物理规律和因果关系
- 学习世界的结构和机制
预测未来（Predicting Future）：
- 预测环境的未来状态
- 模拟可能的行动结果
- 支持规划和决策

1.3 两大功能分类

根据 2024 年的综述论文，世界模型可以分为两大主要功能：

功能类型	目标	应用
理解型	构建内部表示，理解世界机制	知识表示、因果推理、场景理解
预测型	预测未来状态，模拟决策结果	强化学习、规划、自动驾驶

2. 世界模型的定义

2.1 经典定义

世界模型是智能体（Agent）对环境的内部表示或模拟，用于：

预测环境的动态和结果
理解环境的结构和规律
支持决策和规划

2.2 数学表示

在强化学习框架下，世界模型通常表示为：

s_{t+1} = f(s_t, a_t)

其中：

s_t: 当前状态
a_t: 当前动作
s_{t+1}: 下一状态
f: 世界模型（状态转移函数）

2.3 扩展定义

现代世界模型不仅预测状态转移，还包括：

观察模型: o_t = g(s_t) - 从状态生成观察
奖励模型: r_t = h(s_t, a_t) - 预测奖励
终止模型: d_t = k(s_t) - 预测 episode 是否结束

3. 发展时间线

3.1 早期阶段（1980s-1990s）

1980s: 统计学习方法

时期特点：

使用概率模型刻画环境动态
应用隐马尔可夫模型（HMM）
使用卡尔曼滤波构建内部世界模型

时期	表示方法	特点	代表
1980s-1990s	手工特征	人工设计，有限表达能力	HMM, Kalman Filter
2010s 初	深度特征	CNN 提取视觉特征	DQN 特征
2018	VAE 潜在空间	压缩的连续表示	World Models
2019-2020	RSSM	确定性 + 随机性	Dreamer 系列
2020-2022	离散潜在表示	更稳定的训练	Dreamer-V2
2022-2024	Transformer 表示	长期依赖	IRIS, TransDreamer
2024	多模态表示	视觉 + 语言 + 动作	多模态世界模型

年份	里程碑	贡献
1989	Dyna 架构	结合模型学习和规划
1990	世界模型概念	提出 AI 应具备世界认知
2018	World Models 论文	VAE-RNN 范式，梦境训练
2019	Dreamer	在潜在空间学习价值函数
2020	MuZero	学习隐式模型，围棋超人
2023	Dreamer-V3	统一算法，多任务 SOTA
2024	综述论文	系统分类，未来方向

技术	年份	突破
VAE	2013	学习潜在表示
RNN/LSTM	1997/2015	时序建模
RSSM	2019	确定性 + 随机性
Transformer	2017	长期依赖
Diffusion Models	2020	高质量生成
LLM	2022-2023	世界知识
Sora	2024	视频世界模型

领域	年份	成就
游戏 AI	2020	MuZero 围棋超人
Atari	2020	Dreamer-V2 人类水平
机器人	2022	DayDreamer 真实机器人
自动驾驶	2021	World-on-Rails
视频生成	2024	Sora 高质量视频
游戏生成	2024	Genie 可玩游戏

世界模型发展脉络整理：理解世界或预测未来？综合综述

1. 概述

1.1 什么是世界模型？

1.2 核心问题

1.3 两大功能分类

2. 世界模型的定义

2.1 经典定义

2.2 数学表示

2.3 扩展定义

3. 发展时间线

3.1 早期阶段（1980s-1990s）

1980s: 统计学习方法

1989: Dyna 架构

1990: "世界模型"概念提出

3.2 深度学习时代（2010s）

2010s 初期：深度学习引入

2015-2017: 基于模型的深度强化学习

3.3 现代世界模型时代（2018-2020）

2018: World Models 论文（里程碑）

2019: PlaNet & Dreamer 系列开始

3.4 扩展与应用时代（2020-2023）

2020: Dreamer-V2

2021-2022: 多样化发展

2023: Dreamer-V3

3.5 多模态与大模型时代（2024-至今）

2024: 多模态世界模型兴起

2024 年 11 月：综述论文发布

4. 关键技术演进

4.1 表示学习演进

4.2 动态建模演进

阶段 1: 概率图模型（1980s-2000s）

阶段 2: 神经网络模型（2010s）

阶段 3: 循环神经网络（2018-2020）

阶段 4: RSSM（2019-2023）

阶段 5: Transformer（2022-2024）

4.3 训练方法演进

方法 1: 监督学习（早期）

方法 2: 梦境训练（2018）

方法 3: Dyna 风格（2019-2023）

方法 4: 对比学习（2023-2024）

4.4 规划方法演进

方法 1: 模型预测控制（MPC）

方法 2: 价值函数学习

方法 3: 蒙特卡洛树搜索（MCTS）

5. 主要研究方向

5.1 基于模型的强化学习（Model-Based RL）

核心思想

主要方法

优势与挑战

5.2 视频预测（Video Prediction）

目标

关键方法

代表工作

应用

5.3 多模态世界模型

动机

关键方向

技术挑战

5.4 可解释世界模型

目标

方法

5.5 泛化世界模型

目标

方法

6. 应用领域

6.1 强化学习

应用方式

代表应用

6.2 自动驾驶

应用场景

关键技术

代表工作

6.3 机器人

应用方式

代表工作

6.4 社会模拟

应用场景

代表工作

6.5 游戏 AI

应用