马尔可夫决策过程

马尔可夫决策过程（MDP）是马尔可夫奖励过程（MRP）的扩展，它引入了'动作'这一外界的影响因素，使得智能体能够主动选择行为，从而影响状态转移和奖励。MDP 由状态集合、动作集合、折扣因子、奖励函数和状态转移函数构成。与 MRP 不同，MDP 中的状态转移和奖励不仅取决于当前状态，还与智能体选择的动作相关。

MDP 的核心在于智能体与环境之间的持续交互：智能体根据当前状态选择一个动作，然后环境通过状态转移函数和奖励函数生成下一个状态和对应的奖励，并将这些反馈给智能体。智能体的目标是通过选择策略（即根据当前状态选择动作的规则）来最大化其累积奖励。MDP 模型广泛应用于离散状态和动作空间的决策问题，而在状态空间为连续时，MDP 仍然适用但需采用状态转移函数而非矩阵表示。

1. 策略

策略（Policy）是智能体在马尔可夫决策过程（MDP）中根据当前状态选择动作的规则。策略 $\pi(a|s) = P(A_t=a|S_t=s)$ 可以是确定性策略或随机性策略。在确定性策略中，每个状态只对应一个确定的动作，即该动作的概率为 1，其他动作的概率为 0；在随机性策略中，每个状态对应一个关于动作的概率分布，智能体根据该分布随机选择动作。由于马尔可夫性质的存在，策略只与当前状态相关，不依赖于历史状态。策略决定了智能体在每个状态下的行为，从而影响其累积奖励的期望，因此与不同策略对应的状态价值函数也会不同。

2. 状态价值函数

状态价值函数（State Value Function）是用于评估一个智能体在特定策略下，从某一状态开始并持续采取该策略时，期望获得的累积奖励的函数，用 $V^\pi(s)$ 表示基于策略 $\pi$ 的状态价值函数。具体来说，它表示在给定状态下，智能体在未来遵循某策略时所能获得的所有奖励的期望值。状态价值函数是评估和比较不同状态的有用工具，可以帮助智能体选择最优策略，从而最大化累积奖励。

$$ V^\pi(s) = \mathbb{E}_\pi[G_t | S_t=s] $$

3. 动作价值函数

动作价值函数（Action Value Function）是用于评估在特定策略下，智能体从某一状态执行某一动作后，期望获得的累积奖励的函数，用 $Q^\pi(s,a)$ 表示基于策略 $\pi$。它表示在给定状态和动作的条件下，智能体在未来继续遵循该策略所能获得的所有奖励的期望值。动作价值函数帮助智能体评估在某一状态下不同动作的优劣，从而选择最优动作来最大化累积奖励。

$$ Q^\pi(s,a) = \mathbb{E}_\pi[G_t | S_t=s, A_t=a] $$

$$ V^\pi(s) = \sum_{a \in A} \pi(a|s) Q^\pi(s,a) $$

$$ Q^\pi(s,a) = r(s,a) + \gamma \sum_{s' \in S} P(s'|s,a) V^\pi(s') $$

4. 贝尔曼期望方程

$$ V^\pi(s) = \mathbb{E}\pi[R_t + \gamma V^\pi(S{t+1}) | S_t=s] = \sum_{a \in A} \pi(a,s) (r(a,s) + \gamma \sum_{s' \in S} p(s'|s,a) V^\pi(s')) $$

$$ Q^\pi(s,a) = \mathbb{E}\pi[R_t + \gamma Q^\pi(S{t+1},A_{t+1}) | S_t=s,A_t=a] = r(s,a) + \gamma \sum_{s' \in S} p(s'|s,a) \sum_{a' \in A} \pi(a',s') Q^\pi(s',a') $$

参考文献

[1] 动手学强化学习

[2] 强化学习（Reinforcement Learning）

马尔可夫决策过程