【论文阅读】世界模型发展脉络整理---Understanding World or Predicting Future? A Comprehensive Survey of World Models

论文来源: Understanding World or Predicting Future? A Comprehensive Survey of World Models arXiv编号: 2411.14499v2

作者: Jingtao Ding, Yunke Zhang, Yu Shang, Yuheng Zhang, et al.

发布时间: 2024年11月


目录

  1. 概述
  2. 世界模型的定义
  3. 发展时间线
  4. 关键技术演进
  5. 主要研究方向
  6. 应用领域
  7. 未来趋势
  8. 参考文献

1. 概述

1.1 什么是世界模型?

世界模型(World Models)是人工智能系统对环境的内部表示或模拟,旨在:

  • 理解世界机制:构建内部表示以理解环境的运作规律
  • 预测未来状态:预测环境的动态变化以指导决策

1.2 核心问题

论文标题"Understanding World or Predicting Future?"提出了世界模型研究的两个核心问题:

  1. 理解世界(Understanding World)
    • 构建对环境的内部表示
    • 理解物理规律和因果关系
    • 学习世界的结构和机制
  2. 预测未来(Predicting Future)
    • 预测环境的未来状态
    • 模拟可能的行动结果
    • 支持规划和决策

1.3 两大功能分类

根据2024年的综述论文,世界模型可以分为两大主要功能:

功能类型目标应用
理解型构建内部表示,理解世界机制知识表示、因果推理、场景理解
预测型预测未来状态,模拟决策结果强化学习、规划、自动驾驶

2. 世界模型的定义

2.1 经典定义

世界模型是智能体(Agent)对环境的内部表示或模拟,用于:

  • 预测环境的动态和结果
  • 理解环境的结构和规律
  • 支持决策和规划

2.2 数学表示

在强化学习框架下,世界模型通常表示为:

s_{t+1} = f(s_t, a_t)

其中:

  • s_t: 当前状态
  • a_t: 当前动作
  • s_{t+1}: 下一状态
  • f: 世界模型(状态转移函数)

2.3 扩展定义

现代世界模型不仅预测状态转移,还包括:

  • 观察模型: o_t = g(s_t) - 从状态生成观察
  • 奖励模型: r_t = h(s_t, a_t) - 预测奖励
  • 终止模型: d_t = k(s_t) - 预测episode是否结束

3. 发展时间线

3.1 早期阶段(1980s-1990s)

1980s: 统计学习方法

时期特点

  • 使用概率模型刻画环境动态
  • 应用隐马尔可夫模型(HMM)
  • 使用卡尔曼滤波构建内部世界模型

主要挑战

  • 处理高维感知输入时计算量爆炸
  • 模型表达能力有限
  • 难以处理复杂环境

代表方法

  • 隐马尔可夫模型(HMM)
  • 卡尔曼滤波(Kalman Filter)
  • 粒子滤波(Particle Filter)
1989: Dyna架构

提出者: Richard Sutton 贡献: 将强化学习与内部世界概念结合

核心思想

  • 智能体可以在内部模拟环境
  • 通过内部模拟进行规划
  • 结合真实经验和模拟经验学习

Dyna架构组成

1. 直接强化学习(Direct RL)   - 从真实环境中学习 ​ 2. 模型学习(Model Learning)   - 学习环境模型 ​ 3. 规划(Planning)   - 使用模型进行内部模拟

影响

  • 开创了基于模型的强化学习(Model-Based RL)
  • 为后续世界模型研究奠定基础
1990: "世界模型"概念提出

提出者: Jürgen Schmidhuber(尤尔根·施密德胡伯) 时间: 1990年博士论文

核心观点

  • AI模型应具备对现实世界的全面认知
  • 应能模拟未来情景
  • 使用循环神经网络(RNN)构建简单世界模型

技术特点

  • 使用RNN建模时序依赖
  • 端到端学习
  • 压缩表示

3.2 深度学习时代(2010s)

2010s初期: 深度学习引入

技术突破

  • 卷积神经网络(CNN)处理视觉输入
  • 循环神经网络(RNN)捕捉时间序列
  • 深度神经网络提升表达能力

代表工作

  • DQN (2013-2015): 虽然是无模型方法,但推动了深度RL发展
  • 神经网络动态模型: 使用神经网络学习环境动态
2015-2017: 基于模型的深度强化学习

代表方法

  1. Neural Network Dynamics Models
    • 使用深度神经网络学习环境动态
    • 结合模型预测控制(MPC)
  2. Imagination-Augmented Agents (I2A, 2017)
    • 使用学习的模型进行"想象"
    • 结合无模型和基于模型的方法
  3. Model-Based Value Expansion (MBVE, 2017)
    • 使用模型展开价值估计
    • 提高样本效率

3.3 现代世界模型时代(2018-2020)

2018: World Models论文(里程碑)

作者: David Ha & Jürgen Schmidhuber 论文: "Recurrent World Models Facilitate Policy Evolution" 发表: NeurIPS 2018

核心贡献

  1. VAE-RNN架构:视觉输入 → VAE编码器 → 潜在表示 → RNN → 预测未来
  2. 三个组件
    • V (Vision): VAE编码器,压缩视觉输入
    • M (Memory): MDN-RNN,预测未来潜在状态
    • C (Controller): 简单线性控制器
  3. 训练流程:步骤1: 收集随机策略数据 步骤2: 训练VAE学习视觉表示 步骤3: 训练RNN学习动态模型 步骤4: 在模型中训练控制器(梦境训练)

关键创新

  • 压缩表示: 使用VAE将高维图像压缩到低维潜在空间
  • 梦境训练: 完全在学习的模型中训练策略
  • 进化算法: 使用CMA-ES优化控制器

实验结果

  • 在Car Racing游戏中取得优异表现
  • 证明了在模型中训练的可行性
  • 展示了世界模型的潜力

影响

  • 引发了世界模型研究热潮
  • 启发了后续大量工作
  • 成为世界模型的经典范式
2019: PlaNet & Dreamer系列开始

PlaNet (2019)

  • 作者: Danijar Hafner et al.
  • 贡献: 纯粹基于模型的规划方法
  • 特点: 在潜在空间中进行规划

Dreamer (2019)

  • 作者: Danijar Hafner et al.
  • 贡献: 在模型中学习价值函数和策略
  • 方法: Actor-Critic在潜在空间中训练

技术特点

  • RSSM (Recurrent State-Space Model):确定性路径: h_t = f(h_{t-1}, s_{t-1}, a_{t-1}) 随机路径: s_t ~ p(s_t | h_t)
  • 结合确定性和随机性
  • 更好的长期预测能力

3.4 扩展与应用时代(2020-2023)

2020: Dreamer-V2

改进

  • 离散潜在表示
  • 更稳定的训练
  • 更好的性能

成果

  • 在Atari游戏上达到人类水平
  • 证明了世界模型的强大能力
2021-2022: 多样化发展

1. Transformer-based World Models

  • 使用Transformer替代RNN
  • 更好的长期依赖建模
  • 代表: IRIS (2021), TransDreamer (2022)

2. 视频预测模型

  • 直接在像素空间预测
  • 更高保真度的预测
  • 代表: Video Prediction Models

3. 离线强化学习中的世界模型

  • MBOP (Model-Based Offline Policy Optimization)
  • MOPO (Model-Based Offline Policy Optimization)
  • 使用世界模型进行数据增强

4. 大规模世界模型

  • 在大规模数据集上预训练
  • 迁移到下游任务
  • 代表: UniSim (2023)
2023: Dreamer-V3

突破

  • 统一算法,适用于多种任务
  • 从视觉输入到连续控制
  • 在多个benchmark上SOTA

关键技术

  • Symlog predictions
  • Free bits
  • Unimix categoricals

3.5 多模态与大模型时代(2024-至今)

2024: 多模态世界模型兴起

背景

  • 大语言模型(LLM)的成功
  • 视频生成模型(如Sora)的突破
  • 多模态大模型的发展

关键发展

  1. 语言模型作为世界模型
    • LLM具有丰富的世界知识
    • 可以进行因果推理
    • 支持常识推理
  2. 视频生成模型作为世界模型
    • Sora (OpenAI, 2024):
      • 生成高质量视频
      • 理解物理规律
      • 模拟复杂场景
    • Genie (Google DeepMind, 2024):
      • 从视频学习交互式环境
      • 生成可玩的游戏世界
  3. 多模态融合
    • 结合视觉、语言、动作
    • 统一的世界表示
    • 更强的泛化能力
2024年11月: 综述论文发布

论文: "Understanding World or Predicting Future? A Comprehensive Survey of World Models" 作者: Jingtao Ding, Yunke Zhang, et al.

主要贡献

  1. 系统分类
    • 理解型世界模型
    • 预测型世界模型
  2. 应用领域总结
    • 强化学习
    • 自动驾驶
    • 机器人
    • 社会模拟
  3. 未来方向
    • 多模态世界模型
    • 可解释性
    • 泛化能力
    • 长期预测

4. 关键技术演进

4.1 表示学习演进

时期表示方法特点代表
1980s-1990s手工特征人工设计,有限表达能力HMM, Kalman Filter
2010s初深度特征CNN提取视觉特征DQN特征
2018VAE潜在空间压缩的连续表示World Models
2019-2020RSSM确定性+随机性Dreamer系列
2020-2022离散潜在表示更稳定的训练Dreamer-V2
2022-2024Transformer表示长期依赖IRIS, TransDreamer
2024多模态表示视觉+语言+动作多模态世界模型

4.2 动态建模演进

阶段1: 概率图模型(1980s-2000s)

HMM: s_t → s_{t+1}     ↓     o_t ​ 卡尔曼滤波: s_t = A·s_{t-1} + B·u_t + w_t           o_t = C·s_t + v_t

特点

  • 线性假设
  • 高斯噪声
  • 解析解
阶段2: 神经网络模型(2010s)

s_{t+1} = NN(s_t, a_t)

特点

  • 非线性
  • 端到端学习
  • 表达能力强
阶段3: 循环神经网络(2018-2020)

h_t = RNN(h_{t-1}, [z_t, a_t]) z_{t+1} ~ p(z | h_t)

特点

  • 时序建模
  • 隐状态
  • 长期依赖
阶段4: RSSM(2019-2023)

确定性: h_t = f(h_{t-1}, s_{t-1}, a_{t-1}) 随机性: s_t ~ p(s_t | h_t)

特点

  • 结合确定性和随机性
  • 更好的预测
  • 更稳定的训练
阶段5: Transformer(2022-2024)

s_{1:T} = Transformer([s_0, a_0, ..., a_{T-1}])

特点

  • 全局注意力
  • 并行计算
  • 长期依赖

4.3 训练方法演进

方法1: 监督学习(早期)

Loss = ||s_{t+1}^pred - s_{t+1}^true||²

特点

  • 简单直接
  • 需要真实数据
  • 可能累积误差
方法2: 梦境训练(2018)

1. 在真实环境收集数据 2. 训练世界模型 3. 在模型中训练策略 4. 部署到真实环境

特点

  • 样本效率高
  • 安全(在模型中训练)
  • 依赖模型质量
方法3: Dyna风格(2019-2023)

for each step:   1. 真实环境交互   2. 更新世界模型   3. 在模型中训练策略   4. 更新策略

特点

  • 结合真实和模拟经验
  • 持续改进模型
  • 更鲁棒
方法4: 对比学习(2023-2024)

Loss = Contrastive(z_t, z_{t+1}^pos, z_{t+1}^neg)

特点

  • 自监督学习
  • 更好的表示
  • 不需要像素级重构

4.4 规划方法演进

方法1: 模型预测控制(MPC)

for each step:   1. 从当前状态开始   2. 规划H步   3. 执行第一步动作   4. 重新规划

代表: PlaNet (2019)

方法2: 价值函数学习

在模型中学习: V(s) = E[Σ γ^t r_t | s_0=s] π(a|s) = argmax Q(s,a)

代表: Dreamer系列

方法3: 蒙特卡洛树搜索(MCTS)

1. Selection 2. Expansion (使用世界模型) 3. Simulation (使用世界模型) 4. Backpropagation

代表: MuZero (2020)


5. 主要研究方向

5.1 基于模型的强化学习(Model-Based RL)

核心思想

使用学习的世界模型来:

  • 提高样本效率
  • 支持规划
  • 减少真实环境交互
主要方法

1. Dyna系列

  • Dyna (1989)
  • Dyna-2 (2008)
  • 结合真实和模拟经验

2. World Models系列

  • World Models (2018)
  • PlaNet (2019)
  • Dreamer系列 (2019-2023)

3. MuZero系列

  • MuZero (2020)
  • EfficientZero (2021)
  • 学习隐式模型
优势与挑战

优势

  • ✅ 样本效率高
  • ✅ 支持规划
  • ✅ 可以进行安全探索

挑战

  • ⚠️ 模型误差累积
  • ⚠️ 训练不稳定
  • ⚠️ 计算开销大

5.2 视频预测(Video Prediction)

目标

从过去的视频帧预测未来的视频帧

关键方法

1. 确定性预测

I_{t+1} = f(I_t, I_{t-1}, ..., a_t)

2. 随机性预测

I_{t+1} ~ p(I_{t+1} | I_t, I_{t-1}, ..., a_t)

3. 潜在空间预测

z_t = Encoder(I_t) z_{t+1} = f(z_t, a_t) I_{t+1} = Decoder(z_{t+1})

代表工作
  • SVG (Stochastic Video Generation, 2018)
  • SV2P (Stochastic Variational Video Prediction, 2018)
  • Video Transformer (2021)
  • Diffusion-based Video Prediction (2023-2024)
应用
  • 自动驾驶场景预测
  • 机器人运动预测
  • 视频生成

5.3 多模态世界模型

动机

现实世界是多模态的:

  • 视觉信息
  • 语言描述
  • 动作执行
  • 声音反馈
关键方向

1. 语言-视觉世界模型

  • 使用语言描述世界状态
  • 语言指导的预测
  • 代表: LWM (Language World Models, 2024)

2. 视频生成模型作为世界模型

  • Sora (OpenAI, 2024)
  • Genie (Google DeepMind, 2024)
  • 生成交互式环境

3. 具身AI世界模型

  • 结合视觉、动作、本体感觉
  • 支持机器人学习
  • 代表: RT-2, PaLM-E
技术挑战
  • 多模态对齐
  • 统一表示学习
  • 跨模态推理

5.4 可解释世界模型

目标

构建可解释的世界表示:

  • 理解因果关系
  • 发现物理规律
  • 支持推理
方法

1. 结构化世界模型

  • 对象中心表示
  • 关系建模
  • 代表: C-SWM (Contrastively-trained Structured World Models)

2. 因果世界模型

  • 学习因果图
  • 反事实推理
  • 代表: Causal World Models

3. 物理先验世界模型

  • 嵌入物理约束
  • 学习物理规律
  • 代表: Physics-Informed World Models

5.5 泛化世界模型

目标

构建能够泛化到新环境的世界模型

方法

1. 元学习

  • 快速适应新环境
  • 代表: MAML for World Models

2. 预训练-微调

  • 大规模预训练
  • 下游任务微调
  • 代表: UniSim (2023)

3. 领域自适应

  • Sim-to-Real迁移
  • 领域不变表示

6. 应用领域

6.1 强化学习

应用方式
  1. 提高样本效率
    • 使用模型生成额外训练数据
    • 减少真实环境交互
  2. 支持规划
    • 在模型中进行前向搜索
    • 评估不同动作序列
  3. 安全探索
    • 在模型中探索危险区域
    • 避免真实环境中的风险
代表应用
  • Atari游戏
  • 机器人控制
  • 连续控制任务

6.2 自动驾驶

应用场景

1. 场景预测

当前场景 → 世界模型 → 未来场景

2. 规划验证

规划轨迹 → 世界模型模拟 → 安全性评估

3. 数据增强

真实数据 → 世界模型 → 合成场景

关键技术
  • CARLA模拟器: 自动驾驶研究平台
  • NVIDIA Drive Sim: 商业自动驾驶模拟
  • Waymo Open Dataset: 大规模数据集
代表工作
  • World-on-Rails (2021): 基于世界模型的自动驾驶
  • TrafficSim (2021): 交通场景模拟
  • KING (2022): 基于知识的场景生成

6.3 机器人

应用方式

1. 运动规划

  • 使用世界模型预测运动结果
  • 优化轨迹

2. 操作学习

  • 在模型中学习操作策略
  • Sim-to-Real迁移

3. 场景理解

  • 理解物体关系
  • 预测物体运动
代表工作
  • DayDreamer (2022): 真实机器人上的Dreamer
  • TD-MPC (2022): 基于模型的预测控制
  • RoboDreamer (2024): 机器人世界模型

6.4 社会模拟

应用场景

1. 社会行为预测

  • 预测人类行为
  • 模拟社会互动

2. 政策评估

  • 模拟政策影响
  • 评估社会效果

3. 虚拟社会

  • 构建虚拟社会环境
  • 研究社会现象
代表工作
  • Generative Agents (2023): 使用LLM模拟社会
  • Social Simulacra: 社会模拟平台

6.5 游戏AI

应用

1. 游戏生成

  • Genie (2024): 从视频生成可玩游戏
  • GameGAN: 学习游戏引擎

2. 游戏AI

  • MuZero: 在围棋、象棋等游戏中达到超人水平
  • Agent57: 在Atari游戏中达到人类水平

3. 程序化内容生成

  • 使用世界模型生成游戏关卡
  • 自动生成游戏内容

7. 未来趋势

7.1 多模态融合

趋势
  • 统一的多模态世界表示
  • 视觉+语言+动作+声音
  • 跨模态推理和生成
关键技术
  • 多模态Transformer
  • 统一的潜在空间
  • 跨模态注意力机制
潜在应用
  • 更智能的具身AI
  • 更自然的人机交互
  • 更强的泛化能力

7.2 大规模预训练

趋势
  • 在大规模数据上预训练世界模型
  • 迁移到下游任务
  • 类似LLM的发展路径
关键挑战
  • 数据收集: 需要大规模多样化数据
  • 计算资源: 训练成本高
  • 评估标准: 如何评估世界模型质量
代表方向
  • UniSim (2023): 通用模拟器
  • Genie (2024): 从互联网视频学习
  • 未来的"World Foundation Models"

7.3 物理先验与因果推理

趋势
  • 嵌入物理约束
  • 学习因果关系
  • 支持反事实推理
关键技术
  • 物理信息神经网络(PINN)
  • 因果发现算法
  • 结构化世界表示
应用价值
  • 更好的泛化
  • 更少的数据需求
  • 更可解释的模型

7.4 长期预测

挑战
  • 误差累积
  • 不确定性增长
  • 计算复杂度
解决方向

1. 层次化预测

短期: 详细预测(1-10步) 中期: 抽象预测(10-100步) 长期: 高层预测(100+步)

2. 不确定性量化

  • 预测分布而非点估计
  • 量化预测置信度

3. 自适应预测

  • 根据任务需求调整预测粒度
  • 重要区域详细预测

7.5 可解释性与可信度

需求
  • 理解模型决策
  • 发现学到的知识
  • 提高可信度
方法

1. 可视化

  • 潜在空间可视化
  • 注意力可视化
  • 预测过程可视化

2. 概念提取

  • 发现学到的概念
  • 提取因果关系
  • 理解物理规律

3. 形式化验证

  • 证明模型性质
  • 安全性保证

7.6 高效训练与推理

挑战
  • 训练成本高
  • 推理速度慢
  • 内存占用大
解决方向

1. 模型压缩

  • 知识蒸馏
  • 剪枝
  • 量化

2. 高效架构

  • 稀疏Transformer
  • 线性注意力
  • 状态空间模型(SSM)

3. 硬件加速

  • 专用芯片
  • 并行计算
  • 分布式训练

7.7 Sim-to-Real迁移

目标

将在模拟器中学到的知识迁移到真实世界

关键技术

1. 领域随机化

  • 随机化模拟器参数
  • 提高鲁棒性

2. 领域自适应

  • 学习领域不变特征
  • 对齐模拟和真实分布

3. 真实世界微调

  • 少量真实数据微调
  • 快速适应

7.8 人机协作

应用场景
  • 人类专家指导世界模型学习
  • 世界模型辅助人类决策
  • 人机协同规划
关键技术
  • 交互式学习
  • 人类反馈强化学习(RLHF)
  • 可解释的预测

8. 关键里程碑总结

8.1 理论里程碑

年份里程碑贡献
1989Dyna架构结合模型学习和规划
1990世界模型概念提出AI应具备世界认知
2018World Models论文VAE-RNN范式,梦境训练
2019Dreamer在潜在空间学习价值函数
2020MuZero学习隐式模型,围棋超人
2023Dreamer-V3统一算法,多任务SOTA
2024综述论文系统分类,未来方向

8.2 技术里程碑

技术年份突破
VAE2013学习潜在表示
RNN/LSTM1997/2015时序建模
RSSM2019确定性+随机性
Transformer2017长期依赖
Diffusion Models2020高质量生成
LLM2022-2023世界知识
Sora2024视频世界模型

8.3 应用里程碑

领域年份成就
游戏AI2020MuZero围棋超人
Atari2020Dreamer-V2人类水平
机器人2022DayDreamer真实机器人
自动驾驶2021World-on-Rails
视频生成2024Sora高质量视频
游戏生成2024Genie可玩游戏

9. 核心论文列表

9.1 奠基性论文

  1. Dyna Architecture (1989)
    • Sutton, R. S. (1990). "Integrated architectures for learning, planning, and reacting based on approximating dynamic programming"
  2. World Models概念 (1990)
    • Schmidhuber, J. (1990). "Making the world differentiable: On using self-supervised fully recurrent neural networks for dynamic reinforcement learning and planning in non-stationary environments"

9.2 现代世界模型

  1. World Models (2018)
    • Ha, D., & Schmidhuber, J. (2018). "Recurrent World Models Facilitate Policy Evolution"
    • NeurIPS 2018
  2. PlaNet (2019)
    • Hafner, D., et al. (2019). "Learning Latent Dynamics for Planning from Pixels"
    • ICML 2019
  3. Dreamer (2019)
    • Hafner, D., et al. (2019). "Dream to Control: Learning Behaviors by Latent Imagination"
    • ICLR 2020
  4. MuZero (2020)
    • Schrittwieser, J., et al. (2020). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model"
    • Nature
  5. Dreamer-V2 (2020)
    • Hafner, D., et al. (2020). "Mastering Atari with Discrete World Models"
    • ICLR 2021
  6. Dreamer-V3 (2023)
    • Hafner, D., et al. (2023). "Mastering Diverse Domains through World Models"
    • arXiv

9.3 应用论文

  1. DayDreamer (2022)
    • Wu, P., et al. (2022). "DayDreamer: World Models for Physical Robot Learning"
    • CoRL 2022
  2. TD-MPC (2022)
    • Hansen, N., et al. (2022). "Temporal Difference Learning for Model Predictive Control"
    • ICML 2022
  3. UniSim (2023)
    • Yang, M., et al. (2023). "Learning Interactive Real-World Simulators"
    • ICLR 2024

9.4 多模态世界模型

  1. Genie (2024)
    • Bruce, J., et al. (2024). "Genie: Generative Interactive Environments"
    • ICML 2024
  2. Sora (2024)
    • OpenAI (2024). "Sora: Creating video from text"
    • Technical Report
  3. RoboDreamer (2024)
    • Zhou, Y., et al. (2024). "RoboDreamer: Learning Compositional World Models for Robot Imagination"
    • arXiv

9.5 综述论文

  1. World Models Survey (2024) ⭐⭐⭐
    • Ding, J., Zhang, Y., et al. (2024). "Understanding World or Predicting Future? A Comprehensive Survey of World Models"
    • arXiv:2411.14499

10. 关键概念术语表

10.1 基础概念

  • 世界模型(World Model): 智能体对环境的内部表示或模拟
  • 状态空间(State Space): 所有可能状态的集合
  • 动作空间(Action Space): 所有可能动作的集合
  • 状态转移(State Transition): 从一个状态到另一个状态的变化
  • 潜在空间(Latent Space): 压缩的低维表示空间

10.2 模型类型

  • 前向模型(Forward Model): 预测下一状态 s_{t+1} = f(s_t, a_t)
  • 逆向模型(Inverse Model): 预测动作 a_t = f(s_t, s_{t+1})
  • 隐式模型(Implicit Model): 不显式预测状态,而是预测价值或策略
  • 显式模型(Explicit Model): 显式预测状态

10.3 训练方法

  • 监督学习(Supervised Learning): 使用标注数据训练
  • 自监督学习(Self-Supervised Learning): 从数据本身学习
  • 梦境训练(Dreaming): 在模型中训练策略
  • Dyna风格(Dyna-style): 结合真实和模拟经验

10.4 架构组件

  • VAE(Variational Autoencoder): 变分自编码器
  • RNN(Recurrent Neural Network): 循环神经网络
  • RSSM(Recurrent State-Space Model): 循环状态空间模型
  • MDN(Mixture Density Network): 混合密度网络
  • Transformer: 基于注意力的架构

10.5 应用相关

  • MPC(Model Predictive Control): 模型预测控制
  • MCTS(Monte Carlo Tree Search): 蒙特卡洛树搜索
  • Sim-to-Real: 从模拟到真实的迁移
  • 具身AI(Embodied AI): 具有物理身体的AI系统

11. 发展脉络图

11.1 时间线图

1980s-1990s: 概率模型时代   ├─ HMM, Kalman Filter   ├─ 1989: Dyna架构   └─ 1990: 世界模型概念 ​ 2010s: 深度学习时代   ├─ 2013: VAE   ├─ 2015: DQN   └─ 2017: I2A, MBVE ​ 2018-2020: 现代世界模型时代   ├─ 2018: World Models ⭐   ├─ 2019: PlaNet, Dreamer ⭐   └─ 2020: MuZero, Dreamer-V2 ⭐ ​ 2021-2023: 扩展与应用时代   ├─ 2021: IRIS, TransDreamer   ├─ 2022: DayDreamer, TD-MPC   └─ 2023: Dreamer-V3, UniSim ⭐ ​ 2024-现在: 多模态与大模型时代   ├─ 2024: Sora, Genie ⭐   ├─ 2024: RoboDreamer   └─ 2024: 综述论文 ⭐⭐⭐

11.2 技术演进图

表示学习: 手工特征 → CNN特征 → VAE潜在空间 → RSSM → Transformer → 多模态表示 ​ 动态建模: HMM → 神经网络 → RNN → RSSM → Transformer → 扩散模型 ​ 训练方法: 监督学习 → 梦境训练 → Dyna风格 → 对比学习 → 多模态预训练 ​ 规划方法: MPC → 价值函数学习 → MCTS → 层次化规划

11.3 应用领域图

世界模型   ├─ 强化学习   │   ├─ Atari游戏   │   ├─ 连续控制   │   └─ 多任务学习   │   ├─ 自动驾驶   │   ├─ 场景预测   │   ├─ 规划验证   │   └─ 数据增强   │   ├─ 机器人   │   ├─ 运动规划   │   ├─ 操作学习   │   └─ 场景理解   │   ├─ 游戏AI   │   ├─ 游戏生成   │   ├─ 游戏AI   │   └─ 内容生成   │   └─ 社会模拟       ├─ 行为预测       ├─ 政策评估       └─ 虚拟社会


12. 总结与展望

12.1 发展总结

世界模型的发展经历了以下几个关键阶段:

  1. 奠基期(1980s-1990s)
    • 概率模型和统计方法
    • Dyna架构和世界模型概念的提出
    • 为后续发展奠定理论基础
  2. 深度学习期(2010s)
    • 深度神经网络的引入
    • 表达能力大幅提升
    • 开始处理高维感知输入
  3. 现代世界模型期(2018-2020)
    • World Models论文开创新范式
    • Dreamer系列确立主流方法
    • MuZero展示隐式模型潜力
  4. 扩展应用期(2021-2023)
    • 多样化的架构和方法
    • 在多个领域取得突破
    • 向真实世界应用迈进
  5. 多模态大模型期(2024-现在)
    • 多模态融合
    • 大规模预训练
    • 向通用世界模型发展

12.2 核心洞察

1. 两大核心功能

  • 理解世界(Understanding):构建内部表示,理解机制
  • 预测未来(Predicting):预测状态,指导决策

2. 关键技术要素

  • 表示学习:如何压缩和表示世界
  • 动态建模:如何预测世界变化
  • 规划决策:如何利用模型做决策

3. 主要挑战

  • 模型误差累积
  • 长期预测困难
  • 泛化能力有限
  • 计算成本高

12.3 未来展望

短期(1-2年)

  • 多模态世界模型的成熟
  • 大规模预训练世界模型
  • 在机器人和自动驾驶中的应用

中期(3-5年)

  • 通用世界模型的出现
  • Sim-to-Real的突破
  • 物理先验和因果推理的融合

长期(5-10年)

  • 接近人类水平的世界理解
  • 真正的具身智能
  • 世界模型成为AI的核心组件

12.4 关键问题

1. 理解 vs 预测

  • 是否需要理解世界才能预测?
  • 还是只需要预测就足够?
  • 两者如何平衡?

2. 显式 vs 隐式

  • 显式预测状态(Dreamer)
  • 隐式预测价值(MuZero)
  • 哪种更好?

3. 模型 vs 无模型

  • 基于模型的方法
  • 无模型的方法
  • 如何结合?

4. 通用 vs 专用

  • 通用世界模型
  • 任务特定模型
  • 如何权衡?

12.5 研究机会

1. 理论方向

  • 世界模型的理论基础
  • 泛化能力的理论保证
  • 长期预测的理论限制

2. 技术方向

  • 更高效的架构
  • 更好的训练方法
  • 更强的泛化能力

3. 应用方向

  • 真实世界机器人
  • 自动驾驶
  • 具身智能

4. 跨学科方向

  • 认知科学
  • 神经科学
  • 物理学

13. 参考资源

13.1 重要论文

见第9节"核心论文列表"

13.2 代码资源

1. World Models

2. Dreamer系列

3. MuZero

4. 其他资源

13.3 教程与课程

1. 在线课程

  • CS285 (UC Berkeley): Deep Reinforcement Learning
  • CS330 (Stanford): Deep Multi-Task and Meta Learning

2. 博客文章

3. 视频讲座

  • David Ha's Talk on World Models
  • Danijar Hafner's Talk on Dreamer

13.4 研究团队

1. 学术团队

  • Google DeepMind
  • UC Berkeley RL Lab
  • Stanford AI Lab
  • MIT CSAIL

2. 工业团队

  • OpenAI
  • Google Brain
  • Meta AI
  • NVIDIA Research

附录:论文元信息

论文标题

英文: Understanding World or Predicting Future? A Comprehensive Survey of World Models

中文: 理解世界还是预测未来?世界模型的综合综述

作者信息

主要作者:

  • Jingtao Ding (丁景涛)
  • Yunke Zhang (张云可)
  • Yu Shang (尚宇)
  • Yuheng Zhang (张宇恒)
  • et al.

发布信息

  • arXiv编号: 2411.14499
  • 版本: v2
  • 发布时间: 2024年11月
  • 更新时间: 2025年6月26日(根据PDF元数据)

关键词

  • World model
  • Model-based RL
  • Video generation
  • Embodied environment
  • Autonomous driving
  • Robots
  • Social simulacra

论文贡献

  1. 系统分类:将世界模型分为理解型和预测型两大类
  2. 全面综述:覆盖世界模型的历史、现状和未来
  3. 应用总结:总结世界模型在多个领域的应用
  4. 未来方向:指出世界模型研究的未来方向

Read more

8. C++ explicit 关键字

8. C++ explicit 关键字

一、explicit 关键字的核心定义 explicit 是C++中的修饰符关键字,唯一的作用场景是修饰类的构造函数,它的核心功能是:禁止编译器对被修饰的构造函数执行「隐式类型转换 / 隐式构造」行为。 二、前置知识:什么是「隐式类型转换/隐式构造」? 要理解explicit,必须先理解它要禁止的行为是什么。 触发隐式构造的前提 一个类的构造函数满足以下条件时,编译器就具备了「隐式转换」的能力: ✅ 构造函数是单参数构造函数(只有1个入参); ✅ 或,多参数构造函数,但除第一个参数外,其余参数都有默认值(本质等价于「可单参数调用」的构造函数)。 隐式构造的本质 编译器会自动将「单个入参的值」转换为「当前类的临时对象」,这个转换过程是编译器偷偷完成的,不需要程序员手动写构造代码,所以叫「隐式」。 三、无 explicit 时:隐式构造生效(反面示例) 下面的代码是不加explicit的情况,可以直观看到隐式构造的效果,

By Ne0inhk

基于C++的高性能Web爬虫项目实战

本文还有配套的精品资源,点击获取 简介:WebCrawler是一个采用C++开发的高效网络爬虫程序,旨在帮助用户从互联网中自动抓取文本、图片、链接等关键数据资源。作为信息采集的核心技术,网络爬虫广泛应用于搜索引擎、大数据分析和市场调研等领域。本项目深入讲解爬虫工作原理及C++在其中的关键应用,涵盖HTTP请求处理、HTML解析、多线程并发、反反爬策略和数据存储等核心模块。通过系统化实践,开发者可掌握构建高性能爬虫的完整流程,提升对网络数据自动化采集的能力。 网络爬虫的底层逻辑与C++高性能实现 在互联网信息爆炸的时代,数据早已成为驱动业务决策、科学研究和智能系统的“新石油”。而在这片浩瀚的数据海洋中, 网络爬虫(Web Crawler) 正是那艘最高效的采油船——它不眠不休地穿梭于网页之间,自动抓取结构化或非结构化的信息,为搜索引擎、舆情监控、电商比价、金融分析等应用提供源源不断的原料。 但你有没有想过:为什么有些爬虫每秒能处理上千个请求,而另一些却卡在几十个? 为什么Python写起来快,上线后却总被反爬机制封杀? 又是什么让某些工业级系统能在TB级数据流下稳定运行数月不宕

By Ne0inhk

C++中的享元模式高级应用

1、非修改序列算法 这些算法不会改变它们所操作的容器中的元素。 1.1 find 和 find_if * find(begin, end, value):查找第一个等于 value 的元素,返回迭代器(未找到返回 end)。 * find_if(begin, end, predicate):查找第一个满足谓词的元素。 * find_end(begin, end, sub_begin, sub_end):查找子序列最后一次出现的位置。 vector<int> nums = {1, 3, 5, 7, 9}; // 查找值为5的元素 auto it = find(nums.begin(

By Ne0inhk
《C++进阶之STL》【set/map 使用介绍】

《C++进阶之STL》【set/map 使用介绍】

【set/map 使用介绍】目录 * 前言: * ------------容器------------ * 序列容器和关联容器 * ------------set------------ * 一、介绍 * 1. set容器的常见构造 * 2. 容量的操作 * std::set::size * std::set::empty * 3. 修改的操作 * std::set::clear * std::set::swap * std::set::insert * std::set::erase * 3. 比较的操作 * std::set::key_comp * std::set::value_comp * 4. 其他的操作 * std::set::find * std:

By Ne0inhk