近端策略优化算法 (PPO) 详解与 PyTorch 实现

近端策略优化算法 (PPO) 详解

近端策略优化（Proximal Policy Optimization，简称 PPO）是一种强化学习算法，旨在复杂任务中既保证性能提升，又维持训练的稳定性和效率。它通过限制策略更新幅度，有效解决了传统策略梯度方法容易崩溃的问题。

背景与核心思想

PPO 由 OpenAI 在 2017 年提出，专注于简化训练过程并克服 TRPO 等算法的计算复杂性。在强化学习中，直接优化策略往往导致不稳定的训练，模型可能因参数更新过大而失效。PPO 的核心在于引入概率比率和剪辑机制，确保每一步训练都不会偏离当前策略太远，同时高效利用采样数据。

核心目标

PPO 的目标函数如下：

$L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min \left( r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right) \right]$

其中关键概念包括：

概率比率 $r_t(\theta)$：表示新策略和旧策略在同一状态下选择动作的概率比值。 $$r_t(\theta) = \frac{\pi_\theta(a_t | s_t)}{\pi_{\theta_{\text{old}}}(a_t | s_t)}$$
优势函数 $A_t$：评价某个动作的相对好坏，通常用广义优势估计（GAE）近似。 $$A_t = Q(s_t, a_t) - V(s_t)$$
剪辑操作：将概率比率限制在区间 $[1-\epsilon, 1+\epsilon]$ 内，防止策略变化过大。

为什么 PPO 很强？

简洁性：相比 TRPO，无需二次优化，实现更简单。
稳定性：剪辑机制防止策略更新过度，避免发散。
高效性：支持对采样数据进行多次训练迭代，提高样本利用率。

数学推导与流程

总损失函数

PPO 结合了三部分损失：策略损失、值函数损失和熵正则化项。

$$L(\theta) = \mathbb{E}_t \left[ L^{CLIP}(\theta) - c_1 L^{VF}(\theta) + c_2 L^{ENT}(\theta) \right]$$

策略损失 ($L^{CLIP}$)：使用裁剪目标函数限制更新幅度。
值函数损失 ($L^{VF}$)：最小化预测值与真实回报的均方误差，帮助 Critic 更准确估计状态价值。 $$L^{VF}(\theta) = \mathbb{E}_t \left[ \left( V(s_t; \theta) - R_t \right)^2 \right]$$
熵正则化 ($L^{ENT}$)：鼓励探索，防止策略过早收敛到局部最优。 $$L^{ENT}(\theta) = \mathbb{E}t \left[ H(\pi\theta(s_t)) \right]$$

算法流程

采样：使用当前策略与环境交互，收集状态、动作、奖励序列。
计算优势：基于累积回报计算优势函数 $A_t$。
更新策略：通过多轮迭代优化策略网络，利用裁剪机制约束更新范围。
更新值函数：同步优化 Critic 网络以减小预测误差。
重复：直到策略收敛。

Python 代码实现

"""《PPO 算法的代码》时间：2024.12 环境：gym 作者：不去幼儿园 """ import torch import torch.nn as nn import torch.optim as optim from torch.distributions import Categorical import numpy as np import gym class ActorCritic(nn.Module): def __init__(self, state_dim, action_dim): super(ActorCritic, self).__init__() # 共享层用于特征提取 self.shared_layer = nn.Sequential( nn.Linear(state_dim, 128), nn.ReLU() ) # Actor 输出动作概率分布 self.actor = nn.Sequential( nn.Linear(128, action_dim), nn.Softmax(dim=-1) ) # Critic 输出状态值 self.critic = nn.Linear(128, 1) def forward(self, state): shared = self.shared_layer(state) action_probs = self.actor(shared) state_value = self.critic(shared) return action_probs, state_value class Memory: def __init__(self): self.states = [] self.actions = [] self.logprobs = [] self.rewards = [] self.is_terminals = [] def clear(self): self.states = [] self.actions = [] self.logprobs = [] self.rewards = [] self.is_terminals = [] class PPO: def __init__(self, state_dim, action_dim, lr=0.002, gamma=0.99, eps_clip=0.2, K_epochs=4): self.policy = ActorCritic(state_dim, action_dim).to(device) self.optimizer = optim.Adam(self.policy.parameters(), lr=lr) self.policy_old = ActorCritic(state_dim, action_dim).to(device) self.policy_old.load_state_dict(self.policy.state_dict()) self.MseLoss = nn.MSELoss() self.gamma = gamma self.eps_clip = eps_clip self.K_epochs = K_epochs def select_action(self, state, memory): state = torch.FloatTensor(state).to(device) action_probs, _ = self.policy_old(state) dist = Categorical(action_probs) action = dist.sample() memory.states.append(state) memory.actions.append(action) memory.logprobs.append(dist.log_prob(action)) return action.item() def update(self, memory): old_states = torch.stack(memory.states).to(device).detach() old_actions = torch.stack(memory.actions).to(device).detach() old_logprobs = torch.stack(memory.logprobs).to(device).detach() # 计算蒙特卡洛回报 rewards = [] discounted_reward = 0 for reward, is_terminal in zip(reversed(memory.rewards), reversed(memory.is_terminals)): if is_terminal: discounted_reward = 0 discounted_reward = reward + (self.gamma * discounted_reward) rewards.insert(0, discounted_reward) rewards = torch.tensor(rewards, dtype=torch.float32).to(device) # 奖励归一化 rewards = (rewards - rewards.mean()) / (rewards.std() + 1e-7) # 多轮策略更新 for _ in range(self.K_epochs): action_probs, state_values = self.policy(old_states) dist = Categorical(action_probs) new_logprobs = dist.log_prob(old_actions) entropy = dist.entropy() ratios = torch.exp(new_logprobs - old_logprobs.detach()) advantages = rewards - state_values.detach().squeeze() surr1 = ratios * advantages surr2 = torch.clamp(ratios, 1 - self.eps_clip, 1 + self.eps_clip) * advantages loss_actor = -torch.min(surr1, surr2).mean() loss_critic = self.MseLoss(state_values.squeeze(), rewards) loss = loss_actor + 0.5 * loss_critic - 0.01 * entropy.mean() self.optimizer.zero_grad() loss.backward() self.optimizer.step() self.policy_old.load_state_dict(self.policy.state_dict()) # 主程序配置 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") env = gym.make("CartPole-v1") state_dim = env.observation_space.shape[0] action_dim = env.action_space.n ppo = PPO(state_dim, action_dim, lr=0.002, gamma=0.99, eps_clip=0.2, K_epochs=4) memory = Memory() for episode in range(1, 1001): state = env.reset() total_reward = 0 for t in range(300): action = ppo.select_action(state, memory) state, reward, done, _ = env.step(action) memory.rewards.append(reward) memory.is_terminals.append(done) total_reward += reward if done: break ppo.update(memory) memory.clear() print(f"Episode {episode}, Total Reward: {total_reward}") env.close()

特性	PPO	TRPO	A3C
核心思想	裁剪目标函数，限制更新幅度	信任区域，二次约束优化	异步多线程并行采样
优化目标	引入剪辑机制	KL 散度限制步幅	策略梯度
更新方式	同步更新，支持多轮迭代	同步更新，严格限制步长	异步更新，独立线程
计算复杂度	低，无二次优化	高，涉及二次优化	较低，依赖并行
稳定性	高，避免过大更新	高，严格受控	较低，可能冲突
适用场景	广泛，主流算法	极高稳定性需求	资源受限或快速实验

近端策略优化算法 (PPO) 详解与 PyTorch 实现