
01 主要方法
在训练阶段,论文采用 PPO 强化学习算法,并构建了一个基于特权学习的非对称 Actor-Critic 网络。在实机部署阶段,论文引入了一个基于 HOCBF 的实时安全滤波器。

图 1| Actor-Critic 网络架构与训练 - 部署整体控制流程。
1. 训练阶段:基于物理先验的奖励塑形
传统的强化学习通常使用到目标的欧式距离作为奖励,这在非凸的复杂障碍物环境中极易让无人机陷入局部最优解(例如 U 型死胡同)。为此,作者在训练阶段引入了两种基于物理模型的奖励:
1. Dijkstra 全局引导奖励
作者提前用 Dijkstra 算法计算出考虑了障碍物的全局最短距离代价图,并以此构建势场。无人机在势场中前进所获得的奖励计算如下:
其中
是势场,通过三线性插值
获取连续坐标的代价差值,并进行裁剪防止数值爆炸。
2. 基于控制障碍函数的安全惩罚
为了让策略具备前瞻性的避障意识,作者利用环境的 ESDF 欧氏符号距离场构建了控制障碍函数
,并将其导数作为安全奖励。只要无人机速度方向朝着远离障碍物的梯度方向,就能避免惩罚:







