GlobeDiff:用扩散模型从局部观测生成全局状态,破解多智能体部分可观测难题
在多智能体强化学习(MARL)中,部分可观性(Partial Observability, PO) 是一个长期存在的难题。每个智能体只能看到局部信息,却需要基于此做出全局协调的决策。现有的方法(如信念状态估计或通信)往往难以准确还原全局状态,容易出现'模式坍塌'(Mode Collapse),即把多种可能的全局状态平均成一个模糊的状态,导致决策失误。
GlobeDiff,一种基于条件扩散模型的全局状态推断算法。针对多智能体强化学习中的部分可观测性难题(一对多映射歧义),GlobeDiff 引入潜在变量 z 显式建模多模态分布,避免模式坍塌。理论证明其误差有界,实验在修改后的 SMAC 环境下显著优于信念状态估计、通信及 VAE 等基线方法,有效提升了协作任务性能。
在多智能体强化学习(MARL)中,部分可观性(Partial Observability, PO) 是一个长期存在的难题。每个智能体只能看到局部信息,却需要基于此做出全局协调的决策。现有的方法(如信念状态估计或通信)往往难以准确还原全局状态,容易出现'模式坍塌'(Mode Collapse),即把多种可能的全局状态平均成一个模糊的状态,导致决策失误。
本文介绍了 GlobeDiff,一种基于条件扩散模型(Conditional Diffusion Model) 的全局状态推断算法。它的核心思想是将状态推断建模为一个生成过程,通过引入潜在变量 $z$ 来解决局部观测到全局状态的'一对多'映射歧义。理论证明和实验表明,GlobeDiff 不仅能准确推断全局状态,还能显著提升多智能体协作任务的性能。
在完全可观测的多智能体系统中,每个智能体都能看到环境的完整状态,问题可以建模为 Markov 决策过程(MDP)。但现实场景往往是部分可观测的,因此我们通常使用 Decentralized Partially Observable Markov Decision Process(Dec‑POMDP) 来建模。一个 Dec‑POMDP 由以下要素组成:
智能体的目标是学习联合策略 $\pi = (\pi_1,\dots,\pi_n)$ 最大化累计折扣奖励。在部分可观测下,智能体 $i$ 只能看到 $o_i$,而不知道真实的全局状态 $s$。每个智能体只能基于自己的局部观测历史 $\tau_i^t = (o_i^1, a_i^1, \dots, o_i^t)$ 做决策。
部分可观性的核心困难在于歧义性(Ambiguity)。单个智能体的局部观测 $x$ 可能对应多个截然不同的全局状态 $s$。这是一个典型的一对多映射(One-to-Many Mapping) 问题。
现有的解决方法主要有两类,但都有局限性:
传统的处理方法(如 RNN 信念估计)试图学习一个确定性映射 $x \mapsto \hat{s}$,这本质上是将多模态分布压缩成一个点,容易造成模式坍缩,即生成的全局状态要么是多个可能状态的'平均'(失去物理意义),要么随机选中一个可能而忽略其他。这样的推断结果对于后续策略学习显然是不利的。
GlobeDiff 的动机:既然局部观测对应的是全局状态的分布而不是单点,我们应该使用生成模型(Generative Model) 来学习这个条件分布 $p(s|x)$,而不是用判别模型去预测一个点估计。扩散模型因其强大的分布建模能力,成为了理想的选择。
针对上述问题,GlobeDiff 做出了以下贡献:
GlobeDiff 的核心是将全局状态推断 formulize 为一个条件扩散过程。为了解决一对多映射问题,作者引入了一个关键设计:潜在变量 $z$。
如果直接学习条件分布 $p(s \mid x)$,模型需要将同一个 $x$ 映射到多个不同的 $s$,这极易导致模式坍缩,模型可能会学习到这些 $s$ 的平均值(模糊状态)。为了解决这个问题,GlobeDiff 引入了一个潜在变量 $z$,其作用相当于一个'模式选择器'。模型被分解为:
p_{\theta,\phi}(s \mid x) = \int p_\theta(s \mid x, z) , p_\phi(z \mid x) , dz. \tag{3}
现在,给定 $x$ 和一个具体的 $z$,生成 $s$ 变成了一个一对一的任务,因为 $z$ 提供了足够的信息来指明应该对应哪个模式。然而,在推断时我们只有 $x$,没有 $z$,那该怎么办?
这种结构类似于条件变分自编码器(CVAE)。通过最大化对数似然的证据下界(ELBO):
\log p_{\theta,\phi}(s \mid x) \ge \mathbb{E}{q\psi}[\log p_\theta(s \mid x, z)] - \mathrm{KL}\big( q_\psi(z \mid x, s) ,|, p_\phi(z \mid x) \big). \tag{4}
因此,训练目标包含两项:
GlobeDiff 使用扩散概率模型(Denoising Diffusion Probabilistic Models, DDPM)来参数化 $p_\theta(s \mid x, z)$。扩散模型包含两个过程:
逐步向真实状态 $s^0$ 添加高斯噪声,得到一系列噪声状态 $s^1, s^2, \dots, s^K$:
q(s^k \mid s^{k-1}) = \mathcal{N}\big( s^k; \sqrt{1-\beta^k} s^{k-1}, \beta^k \mathbf{I} \big), \tag{5}
其中 $\beta^k$ 是预定义的噪声方差(通常随 $k$ 增大而增大)。利用重参数化技巧,可以直接从 $s^0$ 计算任意 $s^k$:
s^k = \sqrt{\bar{\alpha}^k} s^0 + \sqrt{1 - \bar{\alpha}^k} , \epsilon,\quad \epsilon \sim \mathcal{N}(\mathbf{0},\mathbf{I}), \tag{6}
这里 $\alpha^k = 1 - \beta^k$,$\bar{\alpha}^k = \prod_{i=1}^k \alpha^i$。
反向过程从纯噪声 $s^K \sim \mathcal{N}(\mathbf{0},\mathbf{I})$ 开始,逐步去噪恢复出 $s^0$。条件扩散模型将这个过程参数化为:
p_\theta(s^{0:K} \mid x, z) = \mathcal{N}(s^K; \mathbf{0},\mathbf{I}) \prod_{k=1}^K p_\theta(s^{k-1} \mid s^k, x, z). \tag{7}
通常将 $p_\theta(s^{k-1} \mid s^k, x, z)$ 建模为高斯分布,其均值由神经网络 $\epsilon_\theta(s^k, x, z, k)$ 预测的噪声决定:
\mu_\theta(s^k, x, z, k) = \frac{1}{\sqrt{\alpha^k}} \left( s^k - \frac{\beta^k}{\sqrt{1 - \bar{\alpha}^k}} , \epsilon_\theta(s^k, x, z, k) \right), \tag{8}
方差固定为 $\beta^k \mathbf{I}$。从而采样公式为:
s^{k-1} = \frac{1}{\sqrt{\alpha^k}} \left( s^k - \frac{\beta^k}{\sqrt{1 - \bar{\alpha}^k}} \epsilon_\theta(s^k, x, z, k) \right) + \sqrt{\beta^k} , \epsilon,\quad \epsilon \sim \mathcal{N}(\mathbf{0},\mathbf{I}). \tag{9}
训练难点:在推断时,我们只有 $x$,没有 $z$。但在训练时,我们有真实状态 $s$。
解决方案:
总损失函数:
基于变分下界(ELBO)推导,GlobeDiff 的训练损失为:
\mathcal{L}(\theta,\phi,\psi) = \mathbb{E}{k,\epsilon,(s,x),z\sim q\psi} \left[ \big| \epsilon - \epsilon_\theta\big( \sqrt{\bar{\alpha}^k} s + \sqrt{1-\bar{\alpha}^k}\epsilon, x, z, k \big) \big|^2 \right] + \beta_{\mathrm{KL}} , \mathrm{KL}\big( q_\psi(z \mid x,s) ,|, p_\phi(z \mid x) \big). \tag{10}
在训练阶段,GlobeDiff 利用离线数据或在线收集的轨迹,$(s, x)$,通过最小化式 (10) 更新 $\theta, \phi, \psi$,学习一个条件扩散模型 $p_\theta(s \mid x)$,其中 $x$ 是辅助局部观测(下文解释)。
在推断阶段,每个智能体根据当前 $x$ 生成全局状态 $\hat{s}$,然后基于 $\hat{s}$ 做出决策($a_i = \pi_i(\cdot \mid \hat{s})$)。整个过程不需要任何全局信息,符合 CTDE(集中训练、分散执行)范式。
推断过程(Inference) 具体如下:
论文考虑了两种场景来构造辅助观测 $x$:
论文给出了两个重要的理论结果(定理 1 和定理 2),证明在合理假设下,GlobeDiff 的估计误差可以被控制。
证明细节请参考论文附录,这里我们只需理解:GlobeDiff 的理论保证了即使在复杂的一对多映射下,其推断结果仍然具有高保真度。
假设扩散噪声预测误差有界(MSE ≤ δ²),且先验对齐误差有界(KL ≤ ε_KL)。对于生成的样本 $\hat{s}$ 和真实样本 $s$,期望平方误差满足:
\mathbb{E}[|\hat{s} - s|^2] \leq 2 W_2^2(p_{\theta, \phi}(s|x), p(s|x)) + 4 \text{Var}(s|x)
解释:误差主要由两部分组成:模型分布与真实分布的距离,以及环境本身固有的不确定性。模型无法消除环境固有的不确定性,但可以将分布距离最小化。
针对本文重点解决的多模态情况(即 $p(s|x)$ 有多个峰值),假设真实分布是 $N$ 个高斯模式的混合:
p(s|x) = \sum_{i=1}^N w_i \mathcal{N}(s; \mu_i(x), \Sigma_i(x))
若模式之间分离度足够大(距离 D 足够远),则生成的样本 $\hat{s}$ 至少会落在某一个真实模式中心 $\mu_j(x)$ 的附近,误差满足:
\mathbb{E}[|\hat{s} - \mu_j(x)|^2] \leq C_1 K \delta^2 + C_2 \varepsilon_{KL} + 2 \max_i \text{Tr}(\Sigma_i(x)) + O(e^{-D^2/(8\sigma^2_{\max})})
解释:这个定理证明了即使存在多模态歧义,GlobeDiff 生成的状态也不会乱跑,而是会收敛到某一个合理的真实状态模式中心附近,且误差有界。这保证了模型能正确捕获多模态特性,而不是在模态间'和稀泥'。误差项分别对应扩散步数误差、先验对齐误差、模式内方差以及模式间分离度带来的指数级小误差。
实验在 SMAC(StarCraft Multi-Agent Challenge)及其变体上进行。作者发现原始 SMAC 的局部观测信息量过大,即使将视野缩小到 3,标准 MARL 算法 MAPPO 的性能下降也非常有限(仅 0.03 的胜率下降),这说明原始环境不适合研究部分可观测性。因此,他们修改了环境,移除局部观测中的敌方单位类型和生命值,使得观测与全局状态之间的映射变得更模糊。修改后的环境称为 SMAC‑v1 (PO) 和 SMAC‑v2 (PO)。
实验中,对于 SMAC‑v1 (PO),辅助观测采用单智能体历史轨迹(式 (1));对于 SMAC‑v2 (PO),辅助观测采用所有智能体的瞬时观测(式 (2))。所有结果基于三次随机种子取平均。
通过 t-SNE 可视化全局状态空间,GlobeDiff 推断出的状态分布结构(Voronoi 多边形形状)与真实状态高度相似,且随着训练进行,相似度不断提高,说明 GlobeDiff 确实学到了高保真的条件分布。
在 SMAC‑v1 (PO) 和 SMAC‑v2 (PO) 上,GlobeDiff 在所有地图上均显著超过 LBS、Dynamic Belief、CommFormer 等基线,尤其在超难地图(如 6h_vs_8z)上优势明显。这证明精确的全局状态推断对策略学习至关重要。
将 GlobeDiff 与 VAE、MLP、直接使用联合观测的 MAPPO 对比,结果显示,VAE 和 MLP 几乎没有带来性能提升,说明它们无法有效处理一对多映射;而直接使用联合观测甚至可能引入冗余信息,导致性能下降。GlobeDiff 的扩散模型凭借强大的表达能力和多模态建模,取得了最佳效果。
GlobeDiff 首次将条件扩散模型引入多智能体全局状态推断,通过引入潜在变量 $z$ 显式建模一对多映射,从根本上解决了部分可观测下传统方法容易模式坍缩的问题。理论分析给出了误差上界,实验证明其在 SMAC 环境下能显著提升算法性能,且能够直观地展示状态重建的质量。
未来工作可考虑将 GlobeDiff 应用到真实机器人系统或自动驾驶等更复杂的场景中,并探索如何与在线学习更紧密地结合,进一步减少分布偏移的影响。
| 符号 | 含义 |
|---|---|
| $s$ | 全局状态 |
| $x$ | 辅助观测(由局部观测构造) |
| $z$ | 潜在变量,用于指示多模态中的具体模式 |
| $q_\psi(z \mid x,s)$ | 后验网络,训练时根据真实状态推断 $z$ |
| $p_\phi(z \mid x)$ | 先验网络,推断时仅用 $x$ 预测 $z$ 分布 |
| $\epsilon_\theta(s^k, x, z, k)$ | 噪声预测网络,用于反向扩散过程 |
| $\beta^k, \alpha^k, \bar{\alpha}^k$ | 扩散过程的噪声方差及相关参数 |
| $K$ | 总扩散步数 |
| $\mathcal{L}_{\mathrm{diff}}$ | 扩散模型的噪声预测损失 |
| $\beta_{\mathrm{KL}}$ | KL 项的平衡系数 |

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML 转 Markdown 互为补充。 在线工具,Markdown 转 HTML在线工具,online