跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

GlobeDiff:基于扩散模型的多智能体部分可观测全局状态推断

综述由AI生成介绍 GlobeDiff,一种基于条件扩散模型的全局状态推断算法。针对多智能体强化学习中部分可观测性导致的一对多映射歧义问题,GlobeDiff 引入潜在变量 z 显式建模多模态分布,避免传统判别式方法的模式坍塌。理论分析证明了估计误差边界,实验表明在 SMAC 环境下,该方法能准确推断全局状态并显著提升多智能体协作任务的性能,优于信念状态估计等基线方法。

编程诗人发布于 2026/4/6更新于 2026/5/2225 浏览

1. 研究背景与问题

1.1 多智能体部分可观马尔可夫决策过程 (Dec-POMDP)

在完全可观测的多智能体系统中,每个智能体都能看到环境的完整状态,问题可以建模为 Markov 决策过程(MDP)。但现实场景往往是部分可观测的,因此我们通常使用 Decentralized Partially Observable Markov Decision Process(Dec‑POMDP) 来建模。一个 Dec‑POMDP 由以下要素组成:

  • 全局状态集合 $\mathcal{S}$;
  • $n$ 个智能体,每个智能体有动作空间 $\mathcal{A}$;
  • 联合动作 $\mathbf{a} = (a_1,\dots,a_n)$ 导致状态转移 $\mathcal{P}(s' \mid s,\mathbf{a})$;
  • 所有智能体共享一个奖励函数 $\mathcal{R}(s,\mathbf{a})$;
  • 每个智能体 $i$ 根据观测函数 $\mathcal{U}(s,\mathbf{a})$ 获得局部观测 $o_i \in \mathcal{O}$;
  • 折扣因子 $\gamma$。

智能体的目标是学习联合策略 $\pi = (\pi_1,\dots,\pi_n)$ 最大化累计折扣奖励。在部分可观测下,智能体 $i$ 只能看到 $o_i$,而不知道真实的全局状态 $s$。每个智能体只能基于自己的局部观测历史 $\tau_i^t = (o_i^1, a_i^1, \dots, o_i^t)$ 做决策。

1.2 核心难点:一对多映射歧义

部分可观性的核心困难在于歧义性(Ambiguity)。单个智能体的局部观测 $x$ 可能对应多个截然不同的全局状态 $s$。这是一个典型的一对多映射(One-to-Many Mapping) 问题。

现有的解决方法主要有两类,但都有局限性:

  1. 信念状态估计(Belief State Estimation):使用 RNN 或 Transformer 整合历史观测。缺点是误差会随时间累积,且判别式模型倾向于输出单一的最可能状态,导致模式坍塌。它无法表达'这里有多种可能性'的不确定性。
  2. 显式通信(Inter-agent Communication):智能体之间交换信息。缺点是通信成本高,且协议设计复杂,在严重部分可观环境下消息聚合可能不可靠。

传统的处理方法(如 RNN 信念估计)试图学习一个确定性映射 $x \mapsto \hat{s}$,这本质上是将多模态分布压缩成一个点,容易造成模式坍缩,即生成的全局状态要么是多个可能状态的'平均'(失去物理意义),要么随机选中一个可能而忽略其他。这样的推断结果对于后续策略学习显然是不利的。

GlobeDiff 的动机:既然局部观测对应的是全局状态的分布而不是单点,我们应该使用生成模型(Generative Model) 来学习这个条件分布 $p(s|x)$,而不是用判别模型去预测一个点估计。扩散模型因其强大的分布建模能力,成为了理想的选择。

1.3 核心贡献

针对上述问题,GlobeDiff 做出了以下贡献:

  1. 重新定义问题:明确指出部分可观测的核心是一对多映射,并指出现有判别式方法的局限性。
  2. 提出生成式框架:首次将条件扩散模型引入多智能体全局状态推断,通过引入潜在变量 $z$ 显式建模多模态分布,从根本上避免模式坍缩。
  3. 理论保证:证明了在单模态和多模态条件下,GlobeDiff 的估计误差均可被有界控制。
  4. 实验验证:在修改后的 SMAC 环境(SMAC‑v1/v2 PO)上,GlobeDiff 显著超越多种基线,并能直观展示高质量的状态重建。

2. GlobeDiff 方法详解

GlobeDiff 的核心是将全局状态推断形式化地建模为一个条件扩散过程。为了解决一对多映射问题,作者引入了一个关键设计:潜在变量 $z$。

2.1 引入潜在变量 $z$ 解决一对多映射

如果直接学习条件分布 $p(s \mid x)$,模型需要将同一个 $x$ 映射到多个不同的 $s$,这极易导致模式坍缩,模型可能会学习到这些 $s$ 的平均值(模糊状态)。为了解决这个问题,GlobeDiff 引入了一个潜在变量 $z$,其作用相当于一个'模式选择器'。模型被分解为:
$p_{\theta,\phi}(s \mid x) = \int p_\theta(s \mid x, z) , p_\phi(z \mid x) , dz.$
现在,给定 $x$ 和一个具体的 $z$,生成 $s$ 变成了一个一对一的任务,因为 $z$ 提供了足够的信息来指明应该对应哪个模式。然而,在推断时我们只有 $x$,没有 $z$,那该怎么办?

  • 训练时:我们同时拥有 $x$ 和真实的 $s$,因此可以训练一个后验网络 $q_\psi(z \mid x, s)$ 来捕捉理想情况下应该用哪个 $z$ 来生成 $s$。
  • 推断时:我们训练一个先验网络 $p_\phi(z \mid x)$,仅用 $x$ 预测 $z$ 的分布。这样,在推断时就可以先从 $p_\phi(z \mid x)$ 采样 $z$,再送入条件扩散模型 $p_\theta(s \mid x, z)$ 得到全局状态。

这种结构类似于条件变分自编码器(CVAE)。通过最大化对数似然的证据下界(ELBO):
$\log p_{\theta,\phi}(s \mid x) \ge \mathbb{E}{q\psi}[\log p_\theta(s \mid x, z)] - \mathrm{KL}\big( q_\psi(z \mid x, s) ,|, p_\phi(z \mid x) \big).$

因此,训练目标包含两项:

  • 让 $p_\theta(s \mid x, z)$ 能准确重建 $s$;
  • 让先验 $p_\phi(z \mid x)$ 接近后验 $q_\psi(z \mid x, s)$。
2.2 条件扩散模型 $p_\theta(s \mid x, z)$

GlobeDiff 使用扩散概率模型(Denoising Diffusion Probabilistic Models, DDPM)来参数化 $p_\theta(s \mid x, z)$。扩散模型包含两个过程:

前向过程(加噪)

逐步向真实状态 $s^0$ 添加高斯噪声,得到一系列噪声状态 $s^1, s^2, \dots, s^K$:
$q(s^k \mid s^{k-1}) = \mathcal{N}\big( s^k; \sqrt{1-\beta^k} s^{k-1}, \beta^k \mathbf{I} \big),$
其中 $\beta^k$ 是预定义的噪声方差(通常随 $k$ 增大而增大)。利用重参数化技巧,可以直接从 $s^0$ 计算任意 $s^k$:
$s^k = \sqrt{\bar{\alpha}^k} s^0 + \sqrt{1 - \bar{\alpha}^k} , \epsilon,\quad \epsilon \sim \mathcal{N}(\mathbf{0},\mathbf{I}),$ 这里 $\alpha^k = 1 - \beta^k,\bar{\alpha}^k = \prod_{i=1}^k \alpha^i$。

反向过程(去噪)

反向过程从纯噪声 $s^K \sim \mathcal{N}(\mathbf{0},\mathbf{I})$ 开始,逐步去噪恢复出 $s^0$。条件扩散模型将这个过程参数化为:
$p_\theta(s^{0:K} \mid x, z) = \mathcal{N}(s^K; \mathbf{0},\mathbf{I}) \prod_{k=1}^K p_\theta(s^{k-1} \mid s^k, x, z).$

通常将 $p_\theta(s^{k-1} \mid s^k, x, z)$ 建模为高斯分布,其均值由神经网络 $\epsilon_\theta(s^k, x, z, k)$ 预测的噪声决定:
$\mu_\theta(s^k, x, z, k) = \frac{1}{\sqrt{\alpha^k}} \left( s^k - \frac{\beta^k}{\sqrt{1 - \bar{\alpha}^k}} , \epsilon_\theta(s^k, x, z, k) \right),$
方差固定为 $\beta^k \mathbf{I}$。从而采样公式为:
$s^{k-1} = \frac{1}{\sqrt{\alpha^k}} \left( s^k - \frac{\beta^k}{\sqrt{1 - \bar{\alpha}^k}} \epsilon_\theta(s^k, x, z, k) \right) + \sqrt{\beta^k} , \epsilon,\quad \epsilon \sim \mathcal{N}(\mathbf{0},\mathbf{I}).$

2.3 训练目标

训练难点:在推断时,我们只有 $x$,没有 $z$。但在训练时,我们有真实状态 $s$。

解决方案:

  1. 训练一个后验网络 $q_\psi(z | x, s)$,利用真实状态 $s$ 来学习理想的 $z$。
  2. 训练一个先验网络 $p_\phi(z | x)$,仅利用 $x$ 来预测 $z$。
  3. 通过最小化两者之间的 KL 散度,使得推断时的先验 $p_\phi$ 接近训练时的后验 $q_\psi$。

总损失函数:
基于变分下界(ELBO)推导,GlobeDiff 的训练损失为:
$\mathcal{L}(\theta,\phi,\psi) = \mathbb{E}{k,\epsilon,(s,x),z\sim q\psi} \left[ \big| \epsilon - \epsilon_\theta\big( \sqrt{\bar{\alpha}^k} s + \sqrt{1-\bar{\alpha}^k}\epsilon, x, z, k \big) \big|^2 \right] + \beta_{\mathrm{KL}} , \mathrm{KL}\big( q_\psi(z \mid x,s) ,|, p_\phi(z \mid x) \big).$

  • 第一项是标准的扩散模型去噪损失,保证能还原状态。
  • 第二项是 KL 散度约束,保证先验网络 $p_\phi$ 能预测出与后验网络一致的 $z$。
2.4 训练与推断过程

在训练阶段,GlobeDiff 利用离线数据或在线收集的轨迹,$(s, x)$,通过最小化式 (10) 更新 $\theta, \phi, \psi$,学习一个条件扩散模型 $p_\theta(s \mid x)$,其中 $x$ 是辅助局部观测(下文解释)。

在推断阶段,每个智能体根据当前 $x$ 生成全局状态 $\hat{s}$,然后基于 $\hat{s}$ 做出决策($a_i = \pi_i(\cdot \mid \hat{s})$)。整个过程不需要任何全局信息,符合 CTDE(集中训练、分散执行)范式。

推断过程(Inference) 具体如下:

  1. 智能体获取局部观测 $x$。
  2. 通过先验网络采样 $z \sim p_\phi(z | x)$。
  3. 初始化 $s_K \sim \mathcal{N}(0, I)$。
  4. 执行 $K$ 步去噪采样,得到推断的全局状态 $\hat{s} = s_0$。
  5. 智能体基于 $\hat{s}$ 执行动作 $a_i = \pi_{\vartheta_i}(\cdot | \hat{s})$。
2.5 辅助观测的构造

论文考虑了两种场景来构造辅助观测 $x$:

  • 场景一:观测信息较丰富:用单个智能体最近 $m$ 步的历史观测构成 $x$:
    $x_t = { o_{t-m}^i, o_{t-m+1}^i, \dots, o_t^i }.$ 这适用于每个智能体自身已能积累较多信息的情况。
  • 场景二:观测信息非常有限:允许智能体之间通信,将当前时刻所有智能体的观测拼接起来:
    $x_t = { o_t^1, o_t^2, \dots, o_t^n }.$ 此时 $x$ 包含了全体的瞬时观测,但仍不等于全局状态,因为观测可能丢失部分属性(如敌方血量、兵种等)。

3. 理论分析:误差边界

论文给出了两个重要的理论结果(定理 1 和定理 2),证明在合理假设下,GlobeDiff 的估计误差可以被控制。

证明细节请参考论文附录,这里我们只需理解:GlobeDiff 的理论保证了即使在复杂的一对多映射下,其推断结果仍然具有高保真度。

3.1 单样本期望误差界 (Theorem 1)

假设扩散噪声预测误差有界(MSE ≤ δ²),且先验对齐误差有界(KL ≤ ε_KL)。对于生成的样本 $\hat{s}$ 和真实样本 $s$,期望平方误差满足:
$\mathbb{E}[|\hat{s} - s|^2] \leq 2 W_2^2(p_{\theta, \phi}(s|x), p(s|x)) + 4 \text{Var}(s|x)$

  • $W_2$ 是 Wasserstein-2 距离,衡量生成分布与真实分布的差异。
  • $\text{Var}(s|x)$ 是给定观测下的状态条件方差(即环境本身的不确定性)。

解释:误差主要由两部分组成:模型分布与真实分布的距离,以及环境本身固有的不确定性。模型无法消除环境固有的不确定性,但可以将分布距离最小化。

3.2 多模态误差界 (Theorem 2)

针对本文重点解决的多模态情况(即 $p(s|x)$ 有多个峰值),假设真实分布是 $N$ 个高斯模式的混合:
$p(s|x) = \sum_{i=1}^N w_i \mathcal{N}(s; \mu_i(x), \Sigma_i(x))$

若模式之间分离度足够大(距离 D 足够远),则生成的样本 $\hat{s}$ 至少会落在某一个真实模式中心 $\mu_j(x)$ 的附近,误差满足:
$\mathbb{E}[|\hat{s} - \mu_j(x)|^2] \leq C_1 K \delta^2 + C_2 \varepsilon_{KL} + 2 \max_i \text{Tr}(\Sigma_i(x)) + O(e^{-D^2/(8\sigma^2_{\max})})$

解释:这个定理证明了即使存在多模态歧义,GlobeDiff 生成的状态也不会乱跑,而是会收敛到某一个合理的真实状态模式中心附近,且误差有界。这保证了模型能正确捕获多模态特性,而不是在模态间'和稀泥'。误差项分别对应扩散步数误差、先验对齐误差、模式内方差以及模式间分离度带来的指数级小误差。

4. 实验场景与结果

4.1 环境与设置

实验在 SMAC(StarCraft Multi-Agent Challenge)及其变体上进行。作者发现原始 SMAC 的局部观测信息量过大,即使将视野缩小到 3,标准 MARL 算法 MAPPO 的性能下降也非常有限(仅 0.03 的胜率下降),这说明原始环境不适合研究部分可观测性。因此,他们修改了环境,移除局部观测中的敌方单位类型和生命值,使得观测与全局状态之间的映射变得更模糊。修改后的环境称为 SMAC‑v1 (PO) 和 SMAC‑v2 (PO)。

实验中,对于 SMAC‑v1 (PO),辅助观测采用单智能体历史轨迹(式 (1));对于 SMAC‑v2 (PO),辅助观测采用所有智能体的瞬时观测(式 (2))。所有结果基于三次随机种子取平均。

  • SMAC-v1(PO):基于单个智能体的历史轨迹构建辅助观测 $x_t = {o_{t-m}, ..., o_t}$。
  • SMAC-v2(PO):环境随机性更强(随机阵容、随机出生点),允许智能体间通信,辅助观测构建为联合观测 $x_t = {o^1_t, ..., o^n_t}$。
4.2 基线方法
  • LBS(Learned Belief Search):学习自回归信念模型,用 RNN 编码观测历史。
  • Dynamic Belief:用变分推断预测其他智能体的动态信念。
  • CommFormer:学习动态通信图,基于注意力传递消息。
  • MAPPO (VAE):用条件 VAE 替换 GlobeDiff。
  • MAPPO (MLP):用 MLP 直接回归全局状态。
  • MAPPO (Joint):将联合观测直接作为策略输入(无生成模型)。
4.3 主要实验结果
Q1:GlobeDiff 能准确推断全局状态吗?

通过 t-SNE 可视化全局状态空间,GlobeDiff 推断出的状态分布结构(Voronoi 多边形形状)与真实状态高度相似,且随着训练进行,相似度不断提高,说明 GlobeDiff 确实学到了高保真的条件分布。

Q2:用 GlobeDiff 生成的全局状态能提升 MARL 性能吗?

在 SMAC‑v1 (PO) 和 SMAC‑v2 (PO) 上,GlobeDiff 在所有地图上均显著超过 LBS、Dynamic Belief、CommFormer 等基线,尤其在超难地图(如 6h_vs_8z)上优势明显。这证明精确的全局状态推断对策略学习至关重要。

Q3:GlobeDiff 优于其他生成模型吗?

将 GlobeDiff 与 VAE、MLP、直接使用联合观测的 MAPPO 对比,结果显示,VAE 和 MLP 几乎没有带来性能提升,说明它们无法有效处理一对多映射;而直接使用联合观测甚至可能引入冗余信息,导致性能下降。GlobeDiff 的扩散模型凭借强大的表达能力和多模态建模,取得了最佳效果。

4.4 消融与可视化
  • 先验网络的作用:移除先验网络约束(GlobeDiff w/o p)后,性能下降。证明了对齐 $p(z|x)$ 和 $q(z|x,s)$ 对于推断阶段至关重要。
  • 超参数鲁棒性:扩散步数 $K$ 增加能提高推断精度,但模型参数量(残差块数量)对性能影响较小,说明不需要极大的模型即可实现准确推断。
  • 参数量对比:即使将 Vanilla MAPPO 的参数量增加到与 GlobeDiff 相当(Vanilla MAPPO Large),其性能仍不如 GlobeDiff。这说明性能提升来自于生成式建模架构的优势,而非单纯的容量增加。

5. 总结与展望

GlobeDiff 首次将条件扩散模型引入多智能体全局状态推断,通过引入潜在变量 $z$ 显式建模一对多映射,从根本上解决了部分可观测下传统方法容易模式坍缩的问题。理论分析给出了误差上界,实验证明其在 SMAC 环境下能显著提升算法性能,且能够直观地展示状态重建的质量。

未来工作可考虑将 GlobeDiff 应用到真实机器人系统或自动驾驶等更复杂的场景中,并探索如何与在线学习更紧密地结合,进一步减少分布偏移的影响。

附录:重要符号速查

符号含义
$s$全局状态
$x$辅助观测(由局部观测构造)
$z$潜在变量,用于指示多模态中的具体模式
$q_\psi(z \mid x,s)$后验网络,训练时根据真实状态推断 $z$
$p_\phi(z \mid x)$先验网络,推断时仅用 $x$ 预测 $z$ 分布
$\epsilon_\theta(s^k, x, z, k)$噪声预测网络,用于反向扩散过程
$\beta^k, \alpha^k, \bar{\alpha}^k$扩散过程的噪声方差及相关参数
$K$总扩散步数
$\mathcal{L}_{\mathrm{diff}}$扩散模型的噪声预测损失
$\beta_{\mathrm{KL}}$KL 项的平衡系数

目录

  1. 1. 研究背景与问题
  2. 1.1 多智能体部分可观马尔可夫决策过程 (Dec-POMDP)
  3. 1.2 核心难点:一对多映射歧义
  4. 1.3 核心贡献
  5. 2. GlobeDiff 方法详解
  6. 2.1 引入潜在变量 $z$ 解决一对多映射
  7. 2.2 条件扩散模型 $p_\theta(s \mid x, z)$
  8. 前向过程(加噪)
  9. 反向过程(去噪)
  10. 2.3 训练目标
  11. 2.4 训练与推断过程
  12. 2.5 辅助观测的构造
  13. 3. 理论分析:误差边界
  14. 3.1 单样本期望误差界 (Theorem 1)
  15. 3.2 多模态误差界 (Theorem 2)
  16. 4. 实验场景与结果
  17. 4.1 环境与设置
  18. 4.2 基线方法
  19. 4.3 主要实验结果
  20. Q1:GlobeDiff 能准确推断全局状态吗?
  21. Q2:用 GlobeDiff 生成的全局状态能提升 MARL 性能吗?
  22. Q3:GlobeDiff 优于其他生成模型吗?
  23. 4.4 消融与可视化
  24. 5. 总结与展望
  25. 附录:重要符号速查
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Windows 平台 Visual C++ 14.0 安装与环境配置实战
  • Ubuntu 22 安装 ROS2 Humble 及 Gazebo
  • iOS TabBar 背景透明设置方法
  • OpenClaw 解析:AI 智能体的能力、隐患与未来
  • OpenAI Codex 与 GitHub Copilot 核心差异及选型指南
  • Web 自动化测试常用函数解析与场景应用
  • 快速排序算法原理及多种实现方式
  • llama.cpp 本地大模型部署与 API 调用指南
  • 前端文件下载实战:从原理到最佳实践
  • 微软 GraphRAG 动态社区选择优化全球搜索成本
  • 算法实战:消失的两个数字 - 位运算解法
  • JavaScript 基础语法与 jQuery 快速入门
  • PicoClaw 轻量级 AI 助手安装与使用指南
  • AI 绘画实战指南:从提示词到高质量图像生成
  • 机器人通讯总线选型:CAN/FD、高速 485 与 EtherCAT 深度对比
  • C++ 火柴人跑酷游戏开发流程详解
  • PGvector 在 Spring AI 中实现向量数据库存储与相似性搜索
  • AI 技术在游戏开发与内容创作中的应用实践
  • SkyWalking 多语言探针现状:.NET、C++ 与 Lua 实践指南
  • 前端地图开发基础:服务类型、坐标系与 SDK 选型指南

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online