GlobeDiff：基于扩散模型的多智能体部分可观测全局状态推断

1. 研究背景与问题

1.1 多智能体部分可观马尔可夫决策过程 (Dec-POMDP)

在完全可观测的多智能体系统中，每个智能体都能看到环境的完整状态，问题可以建模为 Markov 决策过程（MDP）。但现实场景往往是部分可观测的，因此我们通常使用 Decentralized Partially Observable Markov Decision Process（Dec‑POMDP） 来建模。一个 Dec‑POMDP 由以下要素组成：

全局状态集合 $\mathcal{S}$；
$n$ 个智能体，每个智能体有动作空间 $\mathcal{A}$；
联合动作 $\mathbf{a} = (a_1,\dots,a_n)$ 导致状态转移 $\mathcal{P}(s' \mid s,\mathbf{a})$；
所有智能体共享一个奖励函数 $\mathcal{R}(s,\mathbf{a})$；
每个智能体 $i$ 根据观测函数 $\mathcal{U}(s,\mathbf{a})$ 获得局部观测 $o_i \in \mathcal{O}$；
折扣因子 $\gamma$。

智能体的目标是学习联合策略 $\pi = (\pi_1,\dots,\pi_n)$ 最大化累计折扣奖励。在部分可观测下，智能体 $i$ 只能看到 $o_i$，而不知道真实的全局状态 $s$。每个智能体只能基于自己的局部观测历史 $\tau_i^t = (o_i^1, a_i^1, \dots, o_i^t)$ 做决策。

1.2 核心难点：一对多映射歧义

部分可观性的核心困难在于歧义性（Ambiguity）。单个智能体的局部观测 $x$ 可能对应多个截然不同的全局状态 $s$。这是一个典型的一对多映射（One-to-Many Mapping） 问题。

现有的解决方法主要有两类，但都有局限性：

信念状态估计（Belief State Estimation）：使用 RNN 或 Transformer 整合历史观测。缺点是误差会随时间累积，且判别式模型倾向于输出单一的最可能状态，导致模式坍塌。它无法表达'这里有多种可能性'的不确定性。
显式通信（Inter-agent Communication）：智能体之间交换信息。缺点是通信成本高，且协议设计复杂，在严重部分可观环境下消息聚合可能不可靠。

传统的处理方法（如 RNN 信念估计）试图学习一个确定性映射 $x \mapsto \hat{s}$，这本质上是将多模态分布压缩成一个点，容易造成模式坍缩，即生成的全局状态要么是多个可能状态的'平均'（失去物理意义），要么随机选中一个可能而忽略其他。这样的推断结果对于后续策略学习显然是不利的。

GlobeDiff 的动机：既然局部观测对应的是全局状态的分布而不是单点，我们应该使用生成模型（Generative Model） 来学习这个条件分布 $p(s|x)$，而不是用判别模型去预测一个点估计。扩散模型因其强大的分布建模能力，成为了理想的选择。

1.3 核心贡献

针对上述问题，GlobeDiff 做出了以下贡献：

重新定义问题：明确指出部分可观测的核心是一对多映射，并指出现有判别式方法的局限性。
提出生成式框架：首次将条件扩散模型引入多智能体全局状态推断，通过引入潜在变量 $z$ 显式建模多模态分布，从根本上避免模式坍缩。
理论保证：证明了在单模态和多模态条件下，GlobeDiff 的估计误差均可被有界控制。
实验验证：在修改后的 SMAC 环境（SMAC‑v1/v2 PO）上，GlobeDiff 显著超越多种基线，并能直观展示高质量的状态重建。

2. GlobeDiff 方法详解

GlobeDiff 的核心是将全局状态推断形式化地建模为一个条件扩散过程。为了解决一对多映射问题，作者引入了一个关键设计：潜在变量 $z$。

2.1 引入潜在变量 $z$ 解决一对多映射

如果直接学习条件分布 $p(s \mid x)$，模型需要将同一个 $x$ 映射到多个不同的 $s$，这极易导致模式坍缩，模型可能会学习到这些 $s$ 的平均值（模糊状态）。为了解决这个问题，GlobeDiff 引入了一个潜在变量 $z$，其作用相当于一个'模式选择器'。模型被分解为： $p_{\theta,\phi}(s \mid x) = \int p_\theta(s \mid x, z) , p_\phi(z \mid x) , dz.$ 现在，给定 $x$ 和一个具体的 $z$，生成 $s$ 变成了一个的任务，因为 $z$ 提供了足够的信息来指明应该对应哪个模式。然而，在推断时我们只有 $x$，没有 $z$，那该怎么办？

符号	含义
$s$	全局状态
$x$	辅助观测（由局部观测构造）
$z$	潜在变量，用于指示多模态中的具体模式
$q_\psi(z \mid x,s)$	后验网络，训练时根据真实状态推断 $z$
$p_\phi(z \mid x)$	先验网络，推断时仅用 $x$ 预测 $z$ 分布
$\epsilon_\theta(s^k, x, z, k)$	噪声预测网络，用于反向扩散过程
$\beta^k, \alpha^k, \bar{\alpha}^k$	扩散过程的噪声方差及相关参数
$K$	总扩散步数
$\mathcal{L}_{\mathrm{diff}}$	扩散模型的噪声预测损失
$\beta_{\mathrm{KL}}$	KL 项的平衡系数

GlobeDiff：基于扩散模型的多智能体部分可观测全局状态推断

1. 研究背景与问题

1.1 多智能体部分可观马尔可夫决策过程 (Dec-POMDP)

1.2 核心难点：一对多映射歧义

1.3 核心贡献

2. GlobeDiff 方法详解

2.1 引入潜在变量 $z$ 解决一对多映射

更多推荐文章

相关免费在线工具

2.2 条件扩散模型 $p_\theta(s \mid x, z)$

前向过程（加噪）

反向过程（去噪）

2.3 训练目标

2.4 训练与推断过程

2.5 辅助观测的构造

3. 理论分析：误差边界

3.1 单样本期望误差界 (Theorem 1)

3.2 多模态误差界 (Theorem 2)

4. 实验场景与结果

4.1 环境与设置

4.2 基线方法

4.3 主要实验结果

Q1：GlobeDiff 能准确推断全局状态吗？

Q2：用 GlobeDiff 生成的全局状态能提升 MARL 性能吗？

Q3：GlobeDiff 优于其他生成模型吗？

4.4 消融与可视化

5. 总结与展望

附录：重要符号速查

更多推荐文章

相关免费在线工具

GlobeDiff：基于扩散模型的多智能体部分可观测全局状态推断

1. 研究背景与问题

1.1 多智能体部分可观马尔可夫决策过程 (Dec-POMDP)

1.2 核心难点：一对多映射歧义

1.3 核心贡献

2. GlobeDiff 方法详解

2.1 引入潜在变量 $z$ 解决一对多映射

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 条件扩散模型 $p_\theta(s \mid x, z)$

前向过程（加噪）

反向过程（去噪）

2.3 训练目标

2.4 训练与推断过程

2.5 辅助观测的构造

3. 理论分析：误差边界

3.1 单样本期望误差界 (Theorem 1)

3.2 多模态误差界 (Theorem 2)

4. 实验场景与结果

4.1 环境与设置

4.2 基线方法

4.3 主要实验结果

Q1：GlobeDiff 能准确推断全局状态吗？

Q2：用 GlobeDiff 生成的全局状态能提升 MARL 性能吗？

Q3：GlobeDiff 优于其他生成模型吗？

4.4 消融与可视化

5. 总结与展望

附录：重要符号速查

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具