基于 Q-Learning 的无人机三维动态避障路径规划（Matlab 实现）

针对低空复杂三维环境下无人机自主飞行安全与路径优化问题，提出一种基于 Q-learning 强化学习的导航方法。构建包含静态与动态障碍的离散化三维空间，设计严格安全距离约束及多目标奖励函数，采用衰减式探索策略实现算法收敛。仿真验证表明，该方法能有效规避碰撞并规划出最优无碰撞路径，具备良好的动态环境适应性。

CodeArtist发布于 2026/4/5更新于 2026/7/2147 浏览

基于 Q-Learning 的无人机三维动态避障路径规划

项目概述

针对低空复杂三维环境下无人机自主飞行的安全与路径优化问题，我们提出一种基于 Q-learning 强化学习的导航方法。该方法在离散化三维空间环境中构建包含静态障碍与动态移动障碍的飞行场景，通过设计严格的安全距离约束机制保证飞行安全性，构建兼顾目标趋近、路径精简与安全规避的奖励函数引导策略学习，采用衰减式探索 - 利用策略实现算法稳定收敛。仿真结果表明，所提方法能够在满足最小安全距离的前提下，有效规避静态与动态障碍，自主规划出从起点到目标点的无碰撞飞行路径，同时具备较好的动态环境适应性与决策稳定性。

1. 引言

1.1 研究背景

随着无人机技术在巡检、测绘、应急救援等领域的广泛应用，其对自主导航能力的要求不断提升。在城市楼宇、林区等真实场景中，无人机通常需要在三维空间内同时面对固定障碍物与移动障碍物，传统依靠人工遥控或预设航线的飞行方式难以应对环境不确定性。因此，实现无人机在三维动态环境下的实时感知、自主避障与最优路径规划，是提升无人机智能化水平的关键。

传统路径规划方法如 A*、Dijkstra 等多依赖环境先验地图，在动态障碍出现时重规划效率较低。强化学习方法通过智能体与环境不断交互试错，自主学习最优决策策略，无需精确环境模型，在动态、未知场景中展现出显著优势。其中 Q-learning 作为经典无模型强化学习算法，结构简洁、稳定性强，适合用于无人机连续状态下的动作决策与避障导航任务。

1.2 主要工作

构建 12×12×12 尺度的三维离散化飞行环境，设置多位置分布的静态球形障碍与两组可自主反向移动的动态障碍。
设计严格的安全距离约束规则，在动作决策前进行有效性筛选，从源头避免无人机与边界、静态障碍及动态障碍发生碰撞。
优化 Q-learning 学习策略与奖励函数，引入衰减式探索概率平衡探索与利用，引导无人机快速学习最优路径。
完成算法训练、最优路径提取与三维可视化验证，从收敛性能、路径长度等方面验证方法有效性。

2. 三维无人机飞行环境建模

2.1 空间环境构建

本文采用立方体空间作为无人机飞行区域，空间在三个维度上进行均匀离散化，形成结构化网格环境。为防止无人机越界，设置合理的有效飞行范围，将边界区域设为禁飞区，无人机在任意时刻均不允许超出该范围。

2.2 本体与障碍模型

将无人机简化为具有固定体积的球形刚体模型，在路径规划与碰撞检测中以等效半径表征其空间占用。环境中布置多组静态障碍，均以固定球体形式分布在三维空间内不同位置，模拟建筑物、山体等固定障碍物。

为提升环境真实性，引入动态移动障碍。动态障碍同样以球体形式表示，具备初始位置与固定移动方向，在移动过程中若接触静态障碍或环境边界，会自动沿原路径反向运动，形成往复移动模式。动态障碍的存在使环境具有时变性，要求无人机具备实时感知与在线重决策能力。

2.3 安全约束定义

为保证无人机飞行安全，设置最小安全距离约束。该约束为硬性安全指标，要求无人机在飞行过程中，与静态障碍、动态障碍之间必须保持不低于设定值的距离。在算法执行过程中，任何可能导致安全距离不满足要求或超出环境边界的动作均被视为无效动作，从决策层面杜绝碰撞与越界行为。

3. 基于 Q-learning 的避障导航算法设计

3.1 算法框架

Q-learning 是一种基于价值迭代的无模型强化学习算法，其核心是通过学习状态 - 动作价值函数，指导智能体在不同状态下选择最优动作。在无人机导航任务中，无人机作为强化学习智能体，其空间位置对应学习状态，位移方式对应可选动作，奖励函数由安全约束与目标完成情况共同决定。

3.2 状态与动作空间

状态空间由无人机在三维环境中的实时位置构成，每一位置唯一对应一个学习状态。由于环境采用离散网格表示，状态空间规模有限且结构清晰。

为满足三维空间全向移动需求，设计覆盖多方向、多步长的动作空间。动作集合包含悬停、单轴移动、双轴斜向移动、三轴空间斜移等多种运动模式。在动作选择阶段，算法并非直接从全部动作中选取，而是先根据安全约束筛选出当前状态下的有效动作，仅在有效动作集合中进行决策，既保证飞行安全，又减少无效计算。

3.3 探索与利用策略

为避免算法陷入局部最优并提升收敛速度，采用衰减式探索 - 利用策略。训练初期使用较高的探索概率，使无人机随机尝试不同动作，充分探索环境空间。随着训练轮数增加，探索概率按指数规律逐步衰减，后期逐渐降低随机探索比重，更多依赖已学习的价值函数选择最优动作，实现从探索到利用的平稳过渡。

3.4 奖励函数设计

奖励函数是引导强化学习策略优化的核心，本文设计多目标分层奖励机制，兼顾飞行安全、路径长度与到达效率。

首先，无人机每执行一步动作都会获得与目标趋近程度相关的基础奖励，当无人机向终点靠近时获得正向奖励，远离时获得负向激励。其次，为鼓励无人机选择更短路径，对每一步移动施加固定惩罚，避免无人机出现绕飞、徘徊等冗余行为。

基于 Q-Learning 的无人机三维动态避障路径规划（Matlab 实现）