
强化学习高速避障新范式
在无人机高速避障领域,Ego-Planner 等传统的模块化规划方法受限于感知 - 规划 - 控制的累积延迟,往往难以兼顾高速与安全;而 RL 等纯端到端的强化学习虽然敏捷,却因缺乏理论上的安全保障而被视为黑盒。
浙江大学高飞老师团队的这项工作,构建了混合架构:
- 在训练阶段,利用 Dijkstra 势场引导 RL 智能体跳出局部极小值陷阱,实现了全局可达性;
- 在部署阶段,引入了基于高阶控制障碍函数(HOCBF)的安全滤波器,将神经网络输出的动作实时投影到可行域内。
这种设计不仅在数学上给出了碰撞避免的严谨证明,更在实测中实现了高达 7.5m/s 的丛林穿越速度。
主要方法
在训练阶段,论文采用 PPO 强化学习算法,并构建了一个基于特权学习的非对称 Actor-Critic 网络。在实机部署阶段,论文引入了一个基于 HOCBF 的实时安全滤波器。

图 1| Actor-Critic 网络架构与训练 - 部署整体控制流程。
1. 训练阶段:基于物理先验的奖励塑形
传统的强化学习通常使用到目标的欧式距离作为奖励,这在非凸的复杂障碍物环境中极易让无人机陷入局部最优解(例如 U 型死胡同)。为此,作者在训练阶段引入了两种基于物理模型的奖励:
1. Dijkstra 全局引导奖励
作者提前用 Dijkstra 算法计算出考虑了障碍物的全局最短距离代价图,并以此构建势场。无人机在势场中前进所获得的奖励计算如下:
其中
是势场,通过三线性插值
获取连续坐标的代价差值,并进行裁剪防止数值爆炸。
2. 基于控制障碍函数的安全惩罚
为了让策略具备前瞻性的避障意识,作者利用环境的 ESDF 欧氏符号距离场构建了控制障碍函数







