基于高阶控制障碍函数的端到端无人机高速避障方法

文章配图

强化学习高速避障新范式

在无人机高速避障领域，Ego-Planner 等传统的模块化规划方法受限于感知 - 规划 - 控制的累积延迟，往往难以兼顾高速与安全；而 RL 等纯端到端的强化学习虽然敏捷，却因缺乏理论上的安全保障而被视为黑盒。

浙江大学高飞老师团队的这项工作，构建了混合架构：

在训练阶段，利用 Dijkstra 势场引导 RL 智能体跳出局部极小值陷阱，实现了全局可达性；
在部署阶段，引入了基于高阶控制障碍函数（HOCBF）的安全滤波器，将神经网络输出的动作实时投影到可行域内。

这种设计不仅在数学上给出了碰撞避免的严谨证明，更在实测中实现了高达 7.5m/s 的丛林穿越速度。

主要方法

在训练阶段，论文采用 PPO 强化学习算法，并构建了一个基于特权学习的非对称 Actor-Critic 网络。在实机部署阶段，论文引入了一个基于 HOCBF 的实时安全滤波器。

图 1| Actor-Critic 网络架构与训练 - 部署整体控制流程。

1. 训练阶段：基于物理先验的奖励塑形

传统的强化学习通常使用到目标的欧式距离作为奖励，这在非凸的复杂障碍物环境中极易让无人机陷入局部最优解（例如 U 型死胡同）。为此，作者在训练阶段引入了两种基于物理模型的奖励：

1. Dijkstra 全局引导奖励

作者提前用 Dijkstra 算法计算出考虑了障碍物的全局最短距离代价图，并以此构建势场。无人机在势场中前进所获得的奖励计算如下：

$r_{\text{nav}, t} = \lambda \cdot \text{clip}(\text{Interp}(\Phi_g, p_{t-1}) - \text{Interp}(\Phi_g, p_t), -C, C)$

其中

$\Phi_g$

是势场，通过三线性插值

$\text{Interp}()$

获取连续坐标的代价差值，并进行裁剪防止数值爆炸。

2. 基于控制障碍函数的安全惩罚

为了让策略具备前瞻性的避障意识，作者利用环境的 ESDF 欧氏符号距离场构建了控制障碍函数

$h(x_t)$

文章配图

强化学习高速避障新范式

浙江大学高飞老师团队的这项工作，构建了混合架构：

在训练阶段，利用 Dijkstra 势场引导 RL 智能体跳出局部极小值陷阱，实现了全局可达性；
在部署阶段，引入了基于高阶控制障碍函数（HOCBF）的安全滤波器，将神经网络输出的动作实时投影到可行域内。

这种设计不仅在数学上给出了碰撞避免的严谨证明，更在实测中实现了高达 7.5m/s 的丛林穿越速度。

主要方法

图 1| Actor-Critic 网络架构与训练 - 部署整体控制流程。

1. 训练阶段：基于物理先验的奖励塑形

1. Dijkstra 全局引导奖励

作者提前用 Dijkstra 算法计算出考虑了障碍物的全局最短距离代价图，并以此构建势场。无人机在势场中前进所获得的奖励计算如下：

$r_{\text{nav}, t} = \lambda \cdot \text{clip}(\text{Interp}(\Phi_g, p_{t-1}) - \text{Interp}(\Phi_g, p_t), -C, C)$

其中

$\Phi_g$

是势场，通过三线性插值

$\text{Interp}()$

获取连续坐标的代价差值，并进行裁剪防止数值爆炸。

2. 基于控制障碍函数的安全惩罚

为了让策略具备前瞻性的避障意识，作者利用环境的 ESDF 欧氏符号距离场构建了控制障碍函数

$h(x_t)$

基于高阶控制障碍函数的端到端无人机高速避障方法

主要方法

1. 训练阶段：基于物理先验的奖励塑形

1. Dijkstra 全局引导奖励

2. 基于控制障碍函数的安全惩罚

基于高阶控制障碍函数的端到端无人机高速避障方法

主要方法

1. 训练阶段：基于物理先验的奖励塑形

1. Dijkstra 全局引导奖励

2. 基于控制障碍函数的安全惩罚

更多推荐文章

相关免费在线工具

2. 部署阶段：基于高阶控制障碍函数的实时滤波

实验结果

1. 仿真训练与消融实验

2. 基准测试

3. 实机飞行验证

总结

更多推荐文章

相关免费在线工具

基于高阶控制障碍函数的端到端无人机高速避障方法

主要方法

1. 训练阶段：基于物理先验的奖励塑形

1. Dijkstra 全局引导奖励

2. 基于控制障碍函数的安全惩罚

基于高阶控制障碍函数的端到端无人机高速避障方法

主要方法

1. 训练阶段：基于物理先验的奖励塑形

1. Dijkstra 全局引导奖励

2. 基于控制障碍函数的安全惩罚

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 部署阶段：基于高阶控制障碍函数的实时滤波

实验结果

1. 仿真训练与消融实验

2. 基准测试

3. 实机飞行验证

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具