概述
MAPPO 是一种多智能体强化学习算法,基于单智能体的 PPO (Proximal Policy Optimization) 算法进行了扩展,专门设计用于解决多智能体协作和竞争环境中的决策问题。
MAPPO 核心特点
- 集中价值网络(Centralized Critic)
- MAPPO 使用一个 centralized critic,将多个智能体的状态、动作信息整合在一起,用于计算价值函数。
- 政策(policy)仍然是每个智能体独立的(decentralized),适合分布式执行。
- 分布式执行与集中式学习
- 在训练时,所有智能体共享全局信息,进行集中式学习。
- 在执行时,每个智能体仅依赖自己的局部观察,保持分布式决策的能力。
- 对 PPO 的优化
- PPO 的核心是通过 clip range 限制策略更新的幅度,确保训练稳定。MAPPO 在多智能体环境中保留了这一优点。
- 针对多智能体场景,对网络结构、数据处理等进行了调整,优化了 PPO 在该场景下的性能。
On-Policy 和 Off-Policy
要想更好的理解 MAPPO 算法的原理机制,得先从 On-Policy 和 Off-Policy 两种算法类型出发。在强化学习中,on-policy 和 off-policy 算法根据策略更新时是否依赖当前策略的经验来区分。
On-Policy 算法
定义:
- On-policy 算法依赖于当前策略生成的经验进行更新。
- 每次策略更新需要使用最新的采样数据,不能直接利用历史经验。
- 强调策略与数据分布的一致性。
常见的 On-Policy 算法
- Policy Gradient (PG)
- 基本策略梯度方法。
- Trust Region Policy Optimization (TRPO)
- 提高策略更新的稳定性,限制更新幅度。
- Proximal Policy Optimization (PPO)
- TRPO 的改进版本,具有更简单的实现。
- 两种变体:clip-PPO 和 adaptive KL-PPO。
- Actor-Critic 系列
- A2C (Advantage Actor-Critic):同步更新的 Actor-Critic。
- A3C (Asynchronous Advantage Actor-Critic):异步更新版本。
- MAPPO (Multi-Agent PPO)
- 专为多智能体场景设计的 PPO 变种。
优点
- 理论收敛性强。
- 更新稳定,适合复杂策略。
缺点
- 样本利用率低(每条数据通常只用一次)。
- 对环境交互的需求较高。
Off-Policy 算法
定义:
- Off-policy 算法利用历史经验进行策略更新,数据采样可以来自不同策略。
- 借助经验回放(replay buffer)提高样本利用率。
常见的 Off-Policy 算法
- Q-Learning 系列


