双延迟深度确定性策略梯度算法 (TD3) 详解

双延迟深度确定性策略梯度算法（Twin Delayed Deep Deterministic Policy Gradient, TD3）是强化学习领域针对连续动作空间问题设计的一种重要算法。它由 Fujimoto 等人在 2018 年提出，旨在解决深度确定性策略梯度（DDPG）算法在实际应用中存在的训练不稳定和 Q 值过估计问题。

一、TD3 的背景与动机

DDPG 结合了 Actor-Critic 架构的优势，在连续控制任务中表现优异，但在实际训练中暴露出几个关键缺陷：

Q 值过估计：Critic 网络容易高估动作价值，导致 Actor 基于错误的反馈更新策略。
策略噪声敏感：确定性策略直接输出动作，缺乏探索性，容易陷入局部最优。
训练震荡：Actor 和 Critic 同步更新时，相互干扰可能导致性能下降。

TD3 通过三项核心改进有效缓解了上述问题，显著提升了算法的鲁棒性和收敛速度。

二、TD3 的核心思想

1. 双 Critic 网络（Twin Critics）

借鉴 Double Q-Learning 的思想，TD3 维护两个独立的 Critic 网络 $Q_{\theta_1}$ 和 $Q_{\theta_2}$。在计算目标 Q 值时，取两者的最小值：

$$ y = r + \gamma \min \big( Q_{\theta_1'}(s', \pi_{\phi'}(s')), Q_{\theta_2'}(s', \pi_{\phi'}(s')) \big) $$

这种机制能有效抑制 Q 值的高估偏差，防止策略被误导。

2. 延迟更新（Delayed Policy Updates）

为了避免 Actor 在网络尚未稳定时频繁更新，TD3 降低了策略网络的更新频率。通常每更新 Critic 两次，才更新一次 Actor。这确保了 Actor 始终基于相对准确的 Q 值进行优化。

3. 目标策略平滑（Target Policy Smoothing）

在计算目标动作时，向目标策略的输出添加裁剪后的高斯噪声：

$$ a' = \pi_{\phi'}(s') + \text{clip}(\epsilon, -c, c), \quad \epsilon \sim \mathcal{N}(0, \sigma) $$

这一操作相当于对目标 Q 函数进行了正则化，减少了策略对特定状态-动作对的过拟合，增强了泛化能力。

三、数学细节解析

Critic 损失函数

Critic 网络的目标是最小化均方误差（MSE），即预测 Q 值与目标 Q 值之间的差距：

$$ L(\theta_i) = \mathbb{E}{(s, a, r, s')} \left[ \big( Q{\theta_i}(s, a) - y \big)^2 \right] $$

其中 $y$ 为包含双 Critic 最小值和噪声平滑后的目标值。

Actor 策略梯度

Actor 网络通过最大化 Critic 的输出来更新策略参数：

$$ \nabla_\phi J(\phi) = \mathbb{E}{s} \left[ \nabla_a Q{\theta_1}(s, a) \big|{a=\pi\phi(s)} \nabla_\phi \pi_\phi(s) \right] $$

由于采用了确定性策略梯度，可以直接利用链式法则计算梯度。

四、PyTorch 实现详解

以下是一个完整的 TD3 实现示例，基于 OpenAI Gym 环境（如 Pendulum-v0）。代码结构清晰，包含了经验回放、网络定义及训练循环。

1. 环境与配置

import argparse
import gym
import numpy as np
import torch
 torch.nn  nn
 torch.optim  optim
 torch.distributions  Normal

device =   torch.cuda.is_available()  

parser = argparse.ArgumentParser()
parser.add_argument(, default=)
parser.add_argument(, default=)
parser.add_argument(, default=)
parser.add_argument(, default=)
parser.add_argument(, default=)
parser.add_argument(, default=)
args = parser.parse_args()

env = gym.make(args.env_name)
state_dim = env.observation_space.shape[]
action_dim = env.action_space.shape[]
max_action = (env.action_space.high[])

class TD3Agent: def __init__(self, state_dim, action_dim, max_action): self.actor = Actor(state_dim, action_dim, max_action).to(device) self.actor_target = Actor(state_dim, action_dim, max_action).to(device) self.critic1 = Critic(state_dim, action_dim).to(device) self.critic2 = Critic(state_dim, action_dim).to(device) self.critic1_target = Critic(state_dim, action_dim).to(device) self.critic2_target = Critic(state_dim, action_dim).to(device) self.actor_optim = optim.Adam(self.actor.parameters(), lr=args.learning_rate) self.critic_optim = optim.Adam(list(self.critic1.parameters()) + list(self.critic2.parameters()), lr=args.learning_rate) self.actor_target.load_state_dict(self.actor.state_dict()) self.critic1_target.load_state_dict(self.critic1.state_dict()) self.critic2_target.load_state_dict(self.critic2.state_dict()) self.memory = ReplayBuffer(1000000) self.num_critic_update = 0 def select_action(self, state): state = torch.FloatTensor(state.reshape(1, -1)).to(device) return self.actor(state).cpu().data.numpy().flatten() def update(self, batch_size): s, ns, a, r, d = self.memory.sample(batch_size) s, ns, a, r, d = torch.FloatTensor(s).to(device), torch.FloatTensor(ns).to(device), \ torch.FloatTensor(a).to(device), torch.FloatTensor(r).to(device), torch.FloatTensor(d).to(device) # 目标动作加噪 noise = torch.randn_like(a) * args.policy_noise noise = noise.clamp(-args.noise_clip, args.noise_clip) next_action = (self.actor_target(ns) + noise).clamp(-self.max_action, self.max_action) # 双 Critic 目标值 target_Q1 = self.critic1_target(ns, next_action) target_Q2 = self.critic2_target(ns, next_action) target_Q = torch.min(target_Q1, target_Q2) target_Q = r + ((1 - d) * args.gamma * target_Q).detach() # 更新 Critic current_Q1 = self.critic1(s, a) loss_Q1 = nn.MSELoss()(current_Q1, target_Q) self.critic_optim.zero_grad(); loss_Q1.backward(); self.critic_optim.step() current_Q2 = self.critic2(s, a) loss_Q2 = nn.MSELoss()(current_Q2, target_Q) self.critic_optim.zero_grad(); loss_Q2.backward(); self.critic_optim.step() # 延迟更新 Actor if self.num_critic_update % args.policy_delay == 0: actor_loss = -self.critic1(s, self.actor(s)).mean() self.actor_optim.zero_grad(); actor_loss.backward(); self.actor_optim.step() # 软更新目标网络 tau = args.tau for p, p_t in zip(self.actor.parameters(), self.actor_target.parameters()): p_t.data.copy_(tau * p.data + (1 - tau) * p_t.data) for p, p_t in zip(self.critic1.parameters(), self.critic1_target.parameters()): p_t.data.copy_(tau * p.data + (1 - tau) * p_t.data) for p, p_t in zip(self.critic2.parameters(), self.critic2_target.parameters()): p_t.data.copy_(tau * p.data + (1 - tau) * p_t.data) self.num_critic_update += 1

双延迟深度确定性策略梯度算法 (TD3) 详解