策略学习方法
策略参数化: The idea is to parameterize the policy. For instance, using a neural network π(θ), this policy will output a probability distribution over actions (stochastic policy).

接受一个状态网络输出的是动作的分布。

策略学习 vs 价值学习
策略梯度方法能够学习出一种随机策略,而价值函数则无法做到这一点。这会产生两个后果:
- 我们无需手动进行探索与利用之间的权衡。由于我们输出的是针对行动的概率分布,因此智能体能够在探索状态空间时避免总是遵循相同的路径。
我们还解决了感知混叠的问题。感知混叠指的是当两种状态看起来(或实际上是)相同,但需要采取不同的行动时的情况。

当然,策略梯度方法也存在一些缺点:
- 通常,策略梯度方法会收敛到局部最大值而非全局最优值。
- 策略梯度方法进展较为缓慢,是逐步进行的:训练过程可能会更耗时(效率低下)。
- 策略梯度方法可能会存在高方差。我们将在'演员 - 评论家'单元中了解其原因以及如何解决这一问题。
偏差和方差的概念:偏差一般指的是预测误差,如果偏差比较低,说明方差一般比较高;
策略梯度方法
目标函数
对于给定参数化策略,我们希望在这个策略下,最大化所有轨迹的期望均值。

这个等价于:

其中,每一个轨迹给定的概率分布为 (全概率公式):












