算法概述
本方案利用Q-learning 离线强化学习,在三维栅格环境下实现无人机的无碰撞、最短路径及最少步数规划。无人机支持 1 格/2 格三维全向移动、对角线飞行及悬停,通过与环境交互迭代学习最优策略,核心目标是在满足约束的前提下输出最优飞行路径。
环境与核心建模
1. 三维状态空间
将飞行空间离散化为三维栅格地图,状态定义为无人机坐标: $$S={(x,y,z) \mid 1 \le x \le X_{max},\ 1 \le y \le Y_{max},\ 1 \le z \le Z_{max}}$$ 其中 $(x,y,z)$ 为空间位置,$X_{max},Y_{max},Z_{max}$ 为地图边界(示例中设为 $10\times10\times10$)。
2. 动作空间
系统共定义54 种动作,涵盖轴向与斜向的 1 格/2 格移动,以及悬停:
- 6 个轴向 1 格移动、12 个平面斜向 1 格移动、8 个空间斜向 1 格移动
- 6 个轴向 2 格移动、12 个平面斜向 2 格移动、8 个空间斜向 2 格移动
- 1 个悬停动作 $(0,0,0)$
动作集合表示为: $$A={ (\Delta x,\Delta y,\Delta z) \mid \Delta x,\Delta y,\Delta z \in {-2,-1,0,1,2},\ \text{非全零} } \cup { (0,0,0) }$$
3. 约束条件
- 边界约束:坐标必须严格位于地图范围内。
- 避障约束:禁止进入障碍物坐标区域。
- 目标约束:从起点 $(2,2,2)$ 到达终点 $(9,9,8)$。
Q-learning 核心数学原理
1. Q 值函数更新
Q 值函数 $Q(s,a)$ 代表状态 $s$ 下执行动作 $a$ 的长期累积奖励期望,是决策的核心依据: $$Q(s,a) \leftarrow Q(s,a) + \alpha \cdot \left[ R(s,a) + \gamma \cdot \max_{a'} Q(s',a') - Q(s,a) \right]$$ 参数说明:
- $\alpha$:学习率,控制更新步长(代码中动态衰减:$0.25 \to 0.05$)。
- $\gamma$:折扣因子,权衡远期奖励(代码中 $\gamma=0.99$)。
- $R(s,a)$:即时奖励。
- $s'$:执行动作后的新状态。
2. 动作选择策略
采用ε-贪心策略配合动态衰减,平衡探索与利用: $$\pi(a|s)= \begin{cases} \arg\max_a Q(s,a) & \text{概率 } 1-\varepsilon \text{(利用最优策略)} \ \text{随机合法动作} & \text{概率 } \varepsilon \text{(探索未知环境)} \end{cases}$$ $\varepsilon$ 随训练轮次指数衰减:$\varepsilon = \max(\varepsilon_{min},\ \varepsilon_0 \cdot e^{-0.007 \cdot \text{episode}})$。
奖励函数 Reward 设计
算法以路径最短、无碰撞、必达终点、步数最少为目标,奖励函数分为四类场景:
1. 数学表达式
$$R(s,a)= \begin{cases} 3500 - 15 \cdot d_{step} - 5 \cdot N_{step} & \text{到达终点}\ -1500 & \text{碰撞障碍物/越界}\ 30 \cdot (d_{cur}-d_{next}) -10 \cdot d_{step} -2 \cdot N_{step} -10 & \text{悬停}\ 30 \cdot (d_{cur}-d_{next}) -10 \cdot d_{step} -2 \cdot N_{step} & \text{正常飞行} \end{cases}$$
2. 设计意图
- 到达终点:给予高额基础奖励(+3500),同时根据单步距离和总步数进行惩罚,强制引导最短路径。
- 碰撞/越界:施加最高惩罚(-1500),确保智能体彻底学会避障。


