GlobeDiff：用扩散模型从局部观测生成全局状态，破解多智能体部分可观测难题

在多智能体强化学习（MARL）中，部分可观性（Partial Observability, PO） 是一个长期存在的难题。每个智能体只能看到局部信息，却需要基于此做出全局协调的决策。现有的方法（如信念状态估计或通信）往往难以准确还原全局状态，容易出现'模式坍塌'（Mode Collapse），即把多种可能的全局状态平均成一个模糊的状态，导致决策失误。

本文介绍了 GlobeDiff，一种基于条件扩散模型（Conditional Diffusion Model） 的全局状态推断算法。它的核心思想是将状态推断建模为一个生成过程，通过引入潜在变量 $z$ 来解决局部观测到全局状态的'一对多'映射歧义。理论证明和实验表明，GlobeDiff 不仅能准确推断全局状态，还能显著提升多智能体协作任务的性能。

1. 研究背景与问题

1.1 多智能体部分可观马尔可夫决策过程 (Dec-POMDP)

在完全可观测的多智能体系统中，每个智能体都能看到环境的完整状态，问题可以建模为 Markov 决策过程（MDP）。但现实场景往往是部分可观测的，因此我们通常使用 Decentralized Partially Observable Markov Decision Process（Dec‑POMDP） 来建模。一个 Dec‑POMDP 由以下要素组成：

全局状态集合 $\mathcal{S}$；
$n$ 个智能体，每个智能体有动作空间 $\mathcal{A}$；
联合动作 $\mathbf{a} = (a_1,\dots,a_n)$ 导致状态转移 $\mathcal{P}(s' \mid s,\mathbf{a})$；
所有智能体共享一个奖励函数 $\mathcal{R}(s,\mathbf{a})$；
每个智能体 $i$ 根据观测函数 $\mathcal{U}(s,\mathbf{a})$ 获得局部观测 $o_i \in \mathcal{O}$；
折扣因子 $\gamma$。

智能体的目标是学习联合策略 $\pi = (\pi_1,\dots,\pi_n)$ 最大化累计折扣奖励。在部分可观测下，智能体 $i$ 只能看到 $o_i$，而不知道真实的全局状态 $s$。每个智能体只能基于自己的局部观测历史 $\tau_i^t = (o_i^1, a_i^1, \dots, o_i^t)$ 做决策。

1.2 核心难点：一对多映射歧义

部分可观性的核心困难在于歧义性（Ambiguity）。单个智能体的局部观测 $x$ 可能对应多个截然不同的全局状态 $s$。这是一个典型的一对多映射（One-to-Many Mapping） 问题。

现有的解决方法主要有两类，但都有局限性：

信念状态估计（Belief State Estimation）：使用 RNN 或 Transformer 整合历史观测。缺点是误差会随时间累积，且判别式模型倾向于输出单一的最可能状态，导致模式坍塌。它无法表达'这里有多种可能性'的不确定性。
显式通信（Inter-agent Communication）：智能体之间交换信息。缺点是通信成本高，且协议设计复杂，在严重部分可观环境下消息聚合可能不可靠。

传统的处理方法（如 RNN 信念估计）试图学习一个确定性映射 $x \mapsto \hat{s}$，这本质上是将多模态分布压缩成一个点，容易造成模式坍缩，即生成的全局状态要么是多个可能状态的'平均'（失去物理意义），要么随机选中一个可能而忽略其他。这样的推断结果对于后续策略学习显然是不利的。

GlobeDiff 的动机：既然局部观测对应的是全局状态的分布而不是单点，我们应该使用生成模型（Generative Model） 来学习这个条件分布 $p(s|x)$，而不是用判别模型去预测一个点估计。扩散模型因其强大的分布建模能力，成为了理想的选择。

1.3 核心贡献

针对上述问题，GlobeDiff 做出了以下贡献：

重新定义问题：明确指出部分可观测的核心是一对多映射，并指出现有判别式方法的局限性。
提出生成式框架：首次将条件扩散模型引入多智能体全局状态推断，通过引入潜在变量 $z$ 显式建模多模态分布，从根本上避免模式坍缩。
理论保证：证明了在单模态和多模态条件下，GlobeDiff 的估计误差均可被有界控制。

符号	含义
$s$	全局状态
$x$	辅助观测（由局部观测构造）
$z$	潜在变量，用于指示多模态中的具体模式
$q_\psi(z \mid x,s)$	后验网络，训练时根据真实状态推断 $z$
$p_\phi(z \mid x)$	先验网络，推断时仅用 $x$ 预测 $z$ 分布
$\epsilon_\theta(s^k, x, z, k)$	噪声预测网络，用于反向扩散过程
$\beta^k, \alpha^k, \bar{\alpha}^k$	扩散过程的噪声方差及相关参数
$K$	总扩散步数
$\mathcal{L}_{\mathrm{diff}}$	扩散模型的噪声预测损失
$\beta_{\mathrm{KL}}$	KL 项的平衡系数

GlobeDiff：用扩散模型从局部观测生成全局状态，破解多智能体部分可观测难题