一、基本概念
REINFORCE 是一种基于策略的强化学习方法,属于无模型的强化学习方法之一。它通过直接优化策略来最大化累积回报,而不是估算值函数。REINFORCE 方法属于蒙特卡洛策略梯度(Monte Carlo Policy Gradient)方法,采用了无偏估计来更新策略参数,通常使用梯度上升法来优化策略。
二、基本思想
REINFORCE 的核心思想是通过采样环境,计算每个时间步的回报,并利用这些回报来更新策略。具体而言,REINFORCE 不像 Q-learning 等基于值的强化学习方法那样,通过估算状态值函数或动作值函数来间接获取策略,而是直接对策略进行优化,通过对策略梯度进行估算来指导策略更新。
REINFORCE 方法的主要目标是通过逐步调整策略,使得最终的策略在长期运行中能够获得最大的回报。
三、公式推导
1. 回报估计
设
为从时间步
开始到终止时刻的累积回报:
是终止时间步,
是时刻
时的奖励
2. 策略梯度公式
reinforce 算法通过计算策略的梯度来更新策略参数,其中设
为策略的参数,
表示在状态

