强化学习：演员评论家 Actor-Critic 算法

演员评论家 Actor-Critic 算法

Actor-Critic 算法理解

Actor-Critic 算法是一种强化学习中的方法，结合了'演员'（Actor）和'评论家'（Critic）两个部分。下面用一个生活中的比喻来说明它的原理：

1. 角色设定

想象你是一名学习爬山的机器人，而你的目标是找到山顶（获得最高的奖励）。在爬山过程中：

Actor（行动者）：它就像一个'冒险家'，负责决定下一步往哪里走（比如往左一步还是往右一步）。但它并不总是很聪明，可能会选错方向。
Critic（评论者）：它就像一个'导师'，站在一旁，评价冒险家的表现。它会告诉 Actor：'这一步走得好，接近山顶了'或者'走错了，离山顶更远了'。

2. 两者如何协作

Actor-Critic 算法的运作过程大致如下：

**Actor（冒险家）**观察环境（如坡度、方向），根据它的'策略'（Policy）选择一个动作（比如往左走）。
**Critic（导师）**会根据冒险家的动作和环境的反馈（如高度增加或减少），计算一个'价值'（Value），来表示这个动作的好坏。
Actor 根据 Critic 的评价，调整自己的策略，使未来能更聪明地选择动作。

3. 学习的核心

Actor 的目标：学习一个好的策略，尽可能选择能达到山顶的动作。
Critic 的目标：准确地评估每一步的表现，帮助 Actor 改进。

通过这种合作方式，Actor 不断优化动作策略，而 Critic 不断提升评价的准确性。

4. 为什么叫 Actor-Critic？

这个名字直接反映了两者的分工：

Actor 负责行动（选择动作）。
Critic 负责评价（估算价值）。

两者的结合比单独使用 Actor 或 Critic 效果更好，因为它们互相弥补了对方的不足。

生活中例子：

就像你学习开车，你是 Actor，根据道路选择要踩油门还是刹车，而你的驾驶教练就是Critic，告诉你哪个动作更安全、更接近目标。

Actor-Critic 算法的背景与来源

Actor-Critic 算法是强化学习领域的一种重要方法，它结合了值函数估计和策略优化的优点。在理解其背景时，需要从强化学习的演化历史、策略梯度方法的局限性以及如何通过值函数辅助优化策略展开。

1. 强化学习的起源

强化学习的目标是使智能体通过与环境的交互，学会在不同状态下选择最优动作，从而最大化长期收益。主要研究方法可以分为以下几类：

值函数方法（如 Q 学习）：估算每个状态或状态 - 动作对的价值，并依据最大价值选择动作；
策略方法：直接优化动作选择的概率分布（策略），通过采样环境反馈进行改进；
策略 - 值函数结合的方法：例如 Actor-Critic，综合两者的优点。

随着强化学习问题复杂度的增加，仅依赖值函数方法会面临高维状态空间下的维度灾难，而纯策略方法在优化过程中可能收敛速度较慢。因此，结合策略与值函数的 Actor-Critic 应运而生。

2. 策略梯度方法的局限性

策略梯度方法通过优化策略函数直接解决强化学习问题，核心思想是通过以下公式更新策略参数：

$$\nabla_\theta J(\theta) = \mathbb{E}{\pi\theta} \left[ \nabla_\theta \log \pi_\theta(a|s) \cdot A^\pi(s, a) \right]$$

其中 $A^\pi(s, a)$ 是优势函数，用于衡量动作的相对好坏。

import numpy as np import torch import torch.nn as nn import torch.optim as optim # Actor 网络 class Actor(nn.Module): def __init__(self, state_dim, action_dim): super(Actor, self).__init__() self.fc = nn.Sequential( nn.Linear(state_dim, 128), nn.ReLU(), nn.Linear(128, action_dim), nn.Softmax(dim=-1) ) def forward(self, state): return self.fc(state) # Critic 网络 class Critic(nn.Module): def __init__(self, state_dim): super(Critic, self).__init__() self.fc = nn.Sequential( nn.Linear(state_dim, 128), nn.ReLU(), nn.Linear(128, 1) ) def forward(self, state): return self.fc(state) # Actor-Critic 算法 class ActorCritic: def __init__(self, state_dim, action_dim, gamma=0.99, lr=1e-3): self.actor = Actor(state_dim, action_dim) self.critic = Critic(state_dim) self.gamma = gamma self.actor_optimizer = optim.Adam(self.actor.parameters(), lr=lr) self.critic_optimizer = optim.Adam(self.critic.parameters(), lr=lr) def select_action(self, state): state = torch.tensor(state, dtype=torch.float32) probs = self.actor(state) action = torch.multinomial(probs, 1).item() return action, probs[action] def update(self, state, action_prob, reward, next_state, done): state = torch.tensor(state, dtype=torch.float32) next_state = torch.tensor(next_state, dtype=torch.float32) reward = torch.tensor(reward, dtype=torch.float32) done = torch.tensor(done, dtype=torch.float32) # Critic 更新 value = self.critic(state) next_value = self.critic(next_state) target = reward + self.gamma * next_value * (1 - done) td_error = target - value critic_loss = td_error.pow(2) self.critic_optimizer.zero_grad() critic_loss.backward() self.critic_optimizer.step() # Actor 更新 actor_loss = -torch.log(action_prob) * td_error.detach() self.actor_optimizer.zero_grad() actor_loss.backward() self.actor_optimizer.step()

# ------------------------------------# # Actor-Critic # ------------------------------------# class ActorCritic: def __init__(self, n_states, n_hiddens, n_actions, actor_lr, critic_lr, gamma): # 属性分配 self.gamma = gamma # 实例化策略网络 self.actor = PolicyNet(n_states, n_hiddens, n_actions) # 实例化价值网络 self.critic = ValueNet(n_states, n_hiddens) # 策略网络的优化器 self.actor_optimizer = torch.optim.Adam(self.actor.parameters(), lr=actor_lr) # 价值网络的优化器 self.critic_optimizer = torch.optim.Adam(self.critic.parameters(), lr=critic_lr) # 动作选择 def take_action(self, state): # 维度变换numpy[n_states]-->[1,n_sates]-->tensor state = torch.tensor(state[np.newaxis, :]) # 动作价值函数，当前状态下各个动作的概率 probs = self.actor(state) # 创建以 probs 为标准类型的数据分布 action_dist = torch.distributions.Categorical(probs) # 随机选择一个动作 tensor-->int action = action_dist.sample().item() return action # 模型更新 def update(self, transition_dict): # 训练集 states = torch.tensor(transition_dict['states'], dtype=torch.float) actions = torch.tensor(transition_dict['actions']).view(-1,1) rewards = torch.tensor(transition_dict['rewards'], dtype=torch.float).view(-1,1) next_states = torch.tensor(transition_dict['next_states'], dtype=torch.float) dones = torch.tensor(transition_dict['dones'], dtype=torch.float).view(-1,1) # 预测的当前时刻的 state_value td_value = self.critic(states) # 目标的当前时刻的 state_value td_target = rewards + self.gamma * self.critic(next_states) * (1-dones) # 时序差分的误差计算，目标的 state_value 与预测的 state_value 之差 td_delta = td_target - td_value # 对每个状态对应的动作价值用 log 函数 log_probs = torch.log(self.actor(states).gather(1, actions)) # 策略梯度损失 actor_loss = torch.mean(-log_probs * td_delta.detach()) # 值函数损失，预测值和目标值之间 critic_loss = torch.mean(F.mse_loss(self.critic(states), td_target.detach())) # 优化器梯度清 0 self.actor_optimizer.zero_grad() # 策略梯度网络的优化器 self.critic_optimizer.zero_grad() # 价值网络的优化器 # 反向传播 actor_loss.backward() critic_loss.backward() # 参数更新 self.actor_optimizer.step() self.critic_optimizer.step()

import numpy as np import matplotlib.pyplot as plt import gym import torch from Actor_Critic import ActorCritic # -----------------------------------------# # 参数设置 # -----------------------------------------# num_episodes = 100 # 总迭代次数 gamma = 0.9 # 折扣因子 actor_lr = 1e-3 # 策略网络的学习率 critic_lr = 1e-2 # 价值网络的学习率 n_hiddens = 16 # 隐含层神经元个数 env_name = 'CartPole-v1' return_list = [] # 保存每个回合的 return # -----------------------------------------# # 环境加载 # -----------------------------------------# env = gym.make(env_name, render_mode="human") n_states = env.observation_space.shape[0] # 状态数 4 n_actions = env.action_space.n # 动作数 2 # -----------------------------------------# # 模型构建 # -----------------------------------------# agent = ActorCritic(n_states=n_states, # 状态数 n_hiddens=n_hiddens, # 隐含层数 n_actions=n_actions, # 动作数 actor_lr=actor_lr, # 策略网络学习率 critic_lr=critic_lr, # 价值网络学习率 gamma=gamma) # 折扣因子 # -----------------------------------------# # 训练--回合更新 # -----------------------------------------# for i in range(num_episodes): state = env.reset()[0] # 环境重置 done = False # 任务完成的标记 episode_return = 0 # 累计每回合的 reward # 构造数据集，保存每个回合的状态数据 transition_dict = { 'states': [], 'actions': [], 'next_states': [], 'rewards': [], 'dones': [], } while not done: action = agent.take_action(state) # 动作选择 next_state, reward, done, _, _ = env.step(action) # 环境更新 # 保存每个时刻的状态\动作\... transition_dict['states'].append(state) transition_dict['actions'].append(action) transition_dict['next_states'].append(next_state) transition_dict['rewards'].append(reward) transition_dict['dones'].append(done) # 更新状态 state = next_state # 累计回合奖励 episode_return += reward # 保存每个回合的 return return_list.append(episode_return) # 模型训练 agent.update(transition_dict) # 打印回合信息 print(f'iter:{i}, return:{np.mean(return_list[-10:])}') # --------------------------------------# # 绘图 # --------------------------------------# plt.plot(return_list) plt.title('return') plt.show()

强化学习：演员评论家 Actor-Critic 算法

演员评论家 Actor-Critic 算法

Actor-Critic 算法理解

1. 角色设定

2. 两者如何协作

3. 学习的核心

4. 为什么叫 Actor-Critic？

生活中例子：

Actor-Critic 算法的背景与来源

1. 强化学习的起源

2. 策略梯度方法的局限性

更多推荐文章

相关免费在线工具

局限性：

3. Actor-Critic 的提出

3.1 概念来源

3.2 数学依据

4. 历史发展与应用

4.1 最早提出

4.2 演化与扩展

Actor-Critic 算法流程的推导

1. 强化学习的优化目标

2. 策略梯度定理

3. Critic：值函数估计

4. Actor：策略优化

5. 完整算法流程

[Python] Actor-Critic 算法实现

算法伪代码

算法示例代码

Actor-Critic 算法实战代码

Actor-Critic 算法

算法测试代码

[Notice] 关键点总结

总结

更多推荐文章

相关免费在线工具

强化学习：演员评论家 Actor-Critic 算法

演员评论家 Actor-Critic 算法

Actor-Critic 算法理解

1. 角色设定

2. 两者如何协作

3. 学习的核心

4. 为什么叫 Actor-Critic？

生活中例子：

Actor-Critic 算法的背景与来源

1. 强化学习的起源

2. 策略梯度方法的局限性

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

局限性：

3. Actor-Critic 的提出

3.1 概念来源

3.2 数学依据

4. 历史发展与应用

4.1 最早提出

4.2 演化与扩展

Actor-Critic 算法流程的推导

1. 强化学习的优化目标

2. 策略梯度定理

3. Critic：值函数估计

4. Actor：策略优化

5. 完整算法流程

[Python] Actor-Critic 算法实现

算法伪代码

算法示例代码

Actor-Critic 算法实战代码

Actor-Critic 算法

算法测试代码

[Notice] 关键点总结

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具