双延迟深度确定性策略梯度算法 (TD3) 详解

一、TD3 算法的背景

双延迟深度确定性策略梯度算法，TD3（Twin Delayed Deep Deterministic Policy Gradient）是强化学习中专为解决连续动作空间问题设计的一种算法。TD3 算法的提出是在深度确定性策略梯度（DDPG）算法的基础上改进而来，用于解决强化学习训练中存在的一些关键挑战。

二、TD3 的背景

1. TD3 的理论背景

TD3 的提出基于以下几个强化学习的理论与技术发展：

Actor-Critic 架构：Actor 网络负责生成动作，Critic 网络负责评估动作的价值（Q 值）。这种架构使得算法能够高效地解决高维连续动作问题。Actor 更新目标是最大化 Critic 网络的 Q 值，而 Critic 网络优化目标是最小化 Q 值预测误差。
确定性策略梯度（Deterministic Policy Gradient, DPG）：DPG 是强化学习中一种适用于连续动作空间的策略梯度方法，TD3 继承了 DPG 的优势，即通过学习一个确定性策略直接生成动作。
双 Q 学习（Double Q-Learning）：TD3 借鉴了双 Q 学习的思想，使用两个独立的 Critic 网络来降低 Q 值估计的偏差。
经验回放池（Replay Buffer）：TD3 通过从经验回放池中采样数据训练网络，打破数据相关性，提高了学习效率。

2. DDPG 的局限性

TD3 算法由 Fujimoto 等人在 2018 年提出，对深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）算法的改进。DDPG 是一种结合策略（Actor）和价值函数（Critic）的强化学习方法，可以在连续动作空间中表现出色。然而，DDPG 存在以下问题：

Q 值过估计问题：Critic 网络在训练时容易高估 Q 值，从而导致策略网络（Actor）学习不稳定。
策略噪声问题：由于策略直接输出确定性动作，在训练时容易陷入局部最优解。
训练不稳定性：Critic 网络和 Actor 网络同时训练时，相互影响可能导致训练震荡。

为了解决上述问题，TD3 通过以下三点创新改进了 DDPG。

三、TD3 算法的核心思想

TD3 在 DDPG 的基础上提出了三项关键改进：

1. 双 Critic 网络（Twin Critics）

动机：DDPG 中的 Critic 网络在估计 Q 值时存在系统性的高估问题。
方法：TD3 使用两个独立的 Critic 网络计算 Q 值，取两者的最小值来作为目标 Q 值。
效果：有效减少了 Q 值的高估偏差（Overestimation Bias）。

2. 延迟更新（Delayed Policy Updates）

动机：在 DDPG 中，Critic 网络和 Actor 网络同时更新，可能导致 Actor 策略在不稳定的 Q 值估计上进行优化。
方法：TD3 降低 Actor 和目标网络的更新频率，通常在 Critic 更新两次后才更新 Actor。
效果：降低了 Actor 网络的更新频率，从而提高了策略的稳定性。

3. 目标策略平滑（Target Policy Smoothing）

动机：DDPG 中的目标策略直接输出确定性动作，容易对极端动作过拟合。TD3 通过在目标策略中加入高斯噪声，对动作进行'平滑'。
方法：在目标值计算中，对动作加入噪声并裁剪到一定范围。
：提高了算法对噪声和目标值波动的鲁棒性。

import argparse from collections import deque import os import random import numpy as np import gym import torch import torch.nn as nn import torch.nn.functional as F import torch.optim as optim from torch.distributions import Normal device = 'cuda' if torch.cuda.is_available() else 'cpu' class ReplayBuffer: def __init__(self, max_size): self.storage = [] self.max_size = max_size self.ptr = 0 def push(self, data): if len(self.storage) == self.max_size: self.storage[int(self.ptr)] = data self.ptr = (self.ptr + 1) % self.max_size else: self.storage.append(data) def sample(self, batch_size): ind = np.random.randint(0, len(self.storage), size=batch_size) x, y, u, r, d = [], [], [], [], [] for i in ind: X, Y, U, R, D = self.storage[i] x.append(np.array(X, copy=False)) y.append(np.array(Y, copy=False)) u.append(np.array(U, copy=False)) r.append(np.array(R, copy=False)) d.append(np.array(D, copy=False)) return np.array(x), np.array(y), np.array(u), np.array(r).reshape(-1, 1), np.array(d).reshape(-1, 1) class Actor(nn.Module): def __init__(self, state_dim, action_dim, max_action): super(Actor, self).__init__() self.fc1 = nn.Linear(state_dim, 400) self.fc2 = nn.Linear(400, 300) self.fc3 = nn.Linear(300, action_dim) self.max_action = max_action def forward(self, state): a = F.relu(self.fc1(state)) a = F.relu(self.fc2(a)) a = torch.tanh(self.fc3(a)) * self.max_action return a class Critic(nn.Module): def __init__(self, state_dim, action_dim): super(Critic, self).__init__() self.fc1 = nn.Linear(state_dim + action_dim, 400) self.fc2 = nn.Linear(400, 300) self.fc3 = nn.Linear(300, 1) def forward(self, state, action): state_action = torch.cat([state, action], 1) q = F.relu(self.fc1(state_action)) q = F.relu(self.fc2(q)) q = self.fc3(q) return q class TD3: def __init__(self, state_dim, action_dim, max_action): self.actor = Actor(state_dim, action_dim, max_action).to(device) self.actor_target = Actor(state_dim, action_dim, max_action).to(device) self.critic_1 = Critic(state_dim, action_dim).to(device) self.critic_1_target = Critic(state_dim, action_dim).to(device) self.critic_2 = Critic(state_dim, action_dim).to(device) self.critic_2_target = Critic(state_dim, action_dim).to(device) self.actor_optimizer = optim.Adam(self.actor.parameters()) self.critic_1_optimizer = optim.Adam(self.critic_1.parameters()) self.critic_2_optimizer = optim.Adam(self.critic_2.parameters()) self.actor_target.load_state_dict(self.actor.state_dict()) self.critic_1_target.load_state_dict(self.critic_1.state_dict()) self.critic_2_target.load_state_dict(self.critic_2.state_dict()) self.max_action = max_action self.memory = ReplayBuffer(max_size=50000) self.num_critic_update_iteration = 0 self.num_actor_update_iteration = 0 self.num_training = 0 def select_action(self, state): state = torch.tensor(state.reshape(1, -1)).float().to(device) return self.actor(state).cpu().data.numpy().flatten() def update(self, num_iteration, args): for i in range(num_iteration): x, y, u, r, d = self.memory.sample(args.batch_size) state = torch.FloatTensor(x).to(device) action = torch.FloatTensor(u).to(device) next_state = torch.FloatTensor(y).to(device) done = torch.FloatTensor(d).to(device) reward = torch.FloatTensor(r).to(device) noise = torch.ones_like(action).data.normal_(0, args.policy_noise).to(device) noise = noise.clamp(-args.noise_clip, args.noise_clip) next_action = (self.actor_target(next_state) + noise).clamp(-self.max_action, self.max_action) target_Q1 = self.critic_1_target(next_state, next_action) target_Q2 = self.critic_2_target(next_state, next_action) target_Q = torch.min(target_Q1, target_Q2) target_Q = reward + ((1 - done) * args.gamma * target_Q).detach() current_Q1 = self.critic_1(state, action) loss_Q1 = F.mse_loss(current_Q1, target_Q) self.critic_1_optimizer.zero_grad() loss_Q1.backward() self.critic_1_optimizer.step() current_Q2 = self.critic_2(state, action) loss_Q2 = F.mse_loss(current_Q2, target_Q) self.critic_2_optimizer.zero_grad() loss_Q2.backward() self.critic_2_optimizer.step() if i % args.policy_delay == 0: actor_loss = - self.critic_1(state, self.actor(state)).mean() self.actor_optimizer.zero_grad() actor_loss.backward() self.actor_optimizer.step() for param, target_param in zip(self.actor.parameters(), self.actor_target.parameters()): target_param.data.copy_((1 - args.tau) * target_param.data + args.tau * param.data) for param, target_param in zip(self.critic_1.parameters(), self.critic_1_target.parameters()): target_param.data.copy_((1 - args.tau) * target_param.data + args.tau * param.data) for param, target_param in zip(self.critic_2.parameters(), self.critic_2_target.parameters()): target_param.data.copy_((1 - args.tau) * target_param.data + args.tau * param.data) self.num_actor_update_iteration += 1 self.num_critic_update_iteration += 1 self.num_training += 1 if __name__ == '__main__': parser = argparse.ArgumentParser() parser.add_argument('--env_name', default="Pendulum-v0") parser.add_argument('--tau', default=0.005, type=float) parser.add_argument('--iteration', default=5, type=int) parser.add_argument('--learning_rate', default=3e-4, type=float) parser.add_argument('--gamma', default=0.99, type=float) parser.add_argument('--capacity', default=50000, type=int) parser.add_argument('--num_iteration', default=100000, type=int) parser.add_argument('--batch_size', default=100, type=int) parser.add_argument('--seed', default=1, type=int) parser.add_argument('--policy_noise', default=0.2, type=float) parser.add_argument('--noise_clip', default=0.5, type=float) parser.add_argument('--policy_delay', default=2, type=int) parser.add_argument('--exploration_noise', default=0.1, type=float) parser.add_argument('--max_episode', default=2000, type=int) args = parser.parse_args() env = gym.make(args.env_name) state_dim = env.observation_space.shape[0] action_dim = env.action_space.shape[0] max_action = float(env.action_space.high[0]) agent = TD3(state_dim, action_dim, max_action) if args.mode == 'train': ep_r = 0 for i in range(args.num_iteration): state = env.reset() for t in range(2000): action = agent.select_action(state) action = action + np.random.normal(0, args.exploration_noise, size=env.action_space.shape[0]) action = action.clip(env.action_space.low, env.action_space.high) next_state, reward, done, info = env.step(action) ep_r += reward agent.memory.push((state, next_state, action, reward, np.float(done))) if len(agent.memory.storage) >= args.capacity - 1: agent.update(10, args) state = next_state if done or t == args.max_episode - 1: print(f"Ep_i {i}, ep_r {ep_r:.2f}") ep_r = 0 break

双延迟深度确定性策略梯度算法 (TD3) 详解