基于强化学习Q-learning算法的无人机三维路径规划算法原理与实现,MATLAB代码

基于强化学习Q-learning算法的无人机三维路径规划算法原理与实现,MATLAB代码

一、算法概述

本文基于Q-learning离线强化学习,实现三维栅格环境下无人机无碰撞、最短路径、最少步数路径规划。无人机具备1格/2格三维全向移动、对角线飞行、悬停能力,通过与环境交互迭代学习最优策略,以到达终点、路径距离、移动步数、避障为核心目标,输出满足约束的最优飞行路径。

二、环境与核心建模

1. 三维状态空间

将无人机飞行空间离散化为三维栅格地图,状态定义为无人机坐标:
S={(x,y,z)∣1≤x≤Xmax, 1≤y≤Ymax, 1≤z≤Zmax} S = \left\{ (x,y,z) \mid 1 \le x \le X_{max},\ 1 \le y \le Y_{max},\ 1 \le z \le Z_{max} \right\} S={(x,y,z)∣1≤x≤Xmax​, 1≤y≤Ymax​, 1≤z≤Zmax​}

  • (x,y,z)(x,y,z)(x,y,z):无人机空间位置
  • Xmax,Ymax,ZmaxX_{max},Y_{max},Z_{max}Xmax​,Ymax​,Zmax​:地图边界(代码中为10×10×1010 \times 10 \times 1010×10×10)

2. 动作空间(代码实现)

54种动作,包含:

  • 6个轴向1格移动、12个平面斜向1格移动、8个空间斜向1格移动
  • 6个轴向2格移动、12个平面斜向2格移动、8个空间斜向2格移动
  • 1个悬停动作 (0,0,0)(0,0,0)(0,0,0)

动作集合:
A={(Δx,Δy,Δz)∣Δx,Δy,Δz∈{−2,−1,0,1,2}, 非全零}∪{(0,0,0)} A = \{ (\Delta x,\Delta y,\Delta z) \mid \Delta x,\Delta y,\Delta z \in \{-2,-1,0,1,2\},\ 非全零 \} \cup \{ (0,0,0) \} A={(Δx,Δy,Δz)∣Δx,Δy,Δz∈{−2,−1,0,1,2}, 非全零}∪{(0,0,0)}

3. 约束条件

  1. 边界约束:坐标必须在地图范围内
  2. 避障约束:禁止进入障碍物坐标
  3. 目标约束:从起点(2,2,2)(2,2,2)(2,2,2)到达终点(9,9,8)(9,9,8)(9,9,8)

三、Q-learning核心数学原理

1. Q值函数

Q(s,a)Q(s,a)Q(s,a) 表示状态sss下执行动作aaa的长期累积奖励期望,是算法核心决策依据:
Q(s,a)←Q(s,a)+α⋅[R(s,a)+γ⋅max⁡a′Q(s′,a′)−Q(s,a)] Q(s,a) \leftarrow Q(s,a) + \alpha \cdot \left[ R(s,a) + \gamma \cdot \max_{a'} Q(s',a') - Q(s,a) \right] Q(s,a)←Q(s,a)+α⋅[R(s,a)+γ⋅a′max​Q(s′,a′)−Q(s,a)]
参数定义

  • α\alphaα:学习率,控制更新步长(代码中动态衰减:0.25→0.050.25 \to 0.050.25→0.05)
  • γ\gammaγ:折扣因子,权衡远期奖励(代码中γ=0.99\gamma=0.99γ=0.99)
  • R(s,a)R(s,a)R(s,a):即时奖励
  • s′s's′:执行动作后的新状态
  • max⁡Q(s′,a′)\max Q(s',a')maxQ(s′,a′):下一状态最优动作价值

2. 动作选择策略

采用**ε\varepsilonε-贪心策略+动态衰减**,平衡探索与利用:
π(a∣s)={arg⁡max⁡aQ(s,a)概率 1−ε(利用最优策略)随机合法动作概率 ε(探索未知环境) \pi(a|s)= \begin{cases} \arg\max\limits_a Q(s,a) & 概率\ 1-\varepsilon(利用最优策略)\\ 随机合法动作 & 概率\ \varepsilon(探索未知环境) \end{cases} π(a∣s)={argamax​Q(s,a)随机合法动作​概率 1−ε(利用最优策略)概率 ε(探索未知环境)​
ε\varepsilonε 随训练指数衰减:ε=max⁡(εmin, ε0⋅e−0.007⋅episode)\varepsilon = \max(\varepsilon_{min},\ \varepsilon_0 \cdot e^{-0.007 \cdot episode})ε=max(εmin​, ε0​⋅e−0.007⋅episode)


四、奖励函数Reward设计

本算法以路径最短、无碰撞、必达终点、步数最少为目标,奖励函数分4类场景设计:

1. 奖励函数数学表达式

R(s,a)={3500−15⋅dstep−5⋅Nstep到达终点−1500碰撞障碍物/越界30⋅(dcur−dnext)−10⋅dstep−2⋅Nstep−10悬停30⋅(dcur−dnext)−10⋅dstep−2⋅Nstep正常飞行 R(s,a)= \begin{cases} 3500 - 15 \cdot d_{step} - 5 \cdot N_{step} & \text{到达终点}\\ -1500 & \text{碰撞障碍物/越界}\\ 30 \cdot (d_{cur}-d_{next}) -10 \cdot d_{step} -2 \cdot N_{step} -10 & \text{悬停}\\ 30 \cdot (d_{cur}-d_{next}) -10 \cdot d_{step} -2 \cdot N_{step} & \text{正常飞行} \end{cases} R(s,a)=⎩⎨⎧​3500−15⋅dstep​−5⋅Nstep​−150030⋅(dcur​−dnext​)−10⋅dstep​−2⋅Nstep​−1030⋅(dcur​−dnext​)−10⋅dstep​−2⋅Nstep​​到达终点碰撞障碍物/越界悬停正常飞行​

2. 奖励项详细介绍

  1. 到达终点(最高奖励)
    • 基础奖励:+3500+3500+3500,保证无人机优先到达目标
    • 惩罚项:单步距离越长、总步数越多,奖励越低,强制最短路径+最少步数
  2. 碰撞障碍物/越界(最高惩罚)
    • 惩罚:−1500-1500−1500,让无人机彻底学会避障,杜绝碰撞
  3. 悬停动作(额外惩罚)
    • 惩罚:−10-10−10,避免无人机无效停留,提升飞行效率
  4. 正常飞行(启发式引导)
    • 靠近终点:+30⋅(dcur−dnext)+30 \cdot (d_{cur}-d_{next})+30⋅(dcur​−dnext​),距离缩短越多奖励越高
    • 远离终点:自动产生负奖励,引导无人机向目标飞行
    • 距离惩罚:−10⋅dstep-10 \cdot d_{step}−10⋅dstep​,飞行距离越长惩罚越高
    • 步数惩罚:−2⋅Nstep-2 \cdot N_{step}−2⋅Nstep​,步数越多惩罚越高

3. 奖励设计核心目标

✅ 无人机必须到达终点
✅ 无人机绝对不碰撞障碍物
✅ 飞行路径欧氏距离最小
✅ 飞行移动步数最少
✅ 禁止无效悬停,提升飞行效率


五、算法步骤

阶段1:参数初始化

  1. 初始化三维地图、起点、终点、障碍物坐标
  2. 定义54种移动动作+1种悬停动作
  3. 初始化四维Q表:Q(Xmax,Ymax,Zmax,A)=0Q(X_{max},Y_{max},Z_{max},A) = 0Q(Xmax​,Ymax​,Zmax​,A)=0
  4. 设置超参数:α,γ,ε\alpha,\gamma,\varepsilonα,γ,ε、训练轮数、最大步长

阶段2:Q-learning训练迭代

for 每一轮训练 episode = 1:max_episode 动态衰减学习率α和探索率ε 无人机重置到起点,清空路径、奖励、步数 for 每一步飞行 step = 1:max_step 1. 动作剪枝:剔除越界、碰撞障碍物的无效动作 2. ε-贪心策略选择最优/随机动作 3. 执行动作,得到新状态s' 4. 计算即时奖励R(核心:避障+距离+步数+终点) 5. 更新Q值:Q(s,a) ← Q(s,a)+α[R+γ·maxQ(s',a')−Q(s,a)] 6. 判断终止:到达终点/碰撞/越界 7. 更新状态、累计奖励、飞行路径 end 计算本轮总距离、总步数、总奖励并保存 end 

阶段3:最优路径规划

  1. 加载训练完成的Q表
  2. 从起点出发,每一步选择Q(s,a)Q(s,a)Q(s,a)最大的动作
  3. 严格校验边界与障碍物,保证无碰撞
  4. 到达终点后,输出最优路径、总步数、总距离

阶段4:结果可视化

  1. 绘制奖励收敛曲线
  2. 绘制路径距离收敛曲线
  3. 绘制三维最优路径、起点、终点、障碍物

六、部分MATLAB代码及结果

% 最终结果 final_steps = size(path,1)-1; final_dist =0;for i =1:final_steps final_dist = final_dist + norm(path(i+1,:)-path(i,:)); end fprintf('\n=========================================\n'); fprintf(' 最优步数:%d 步\n', final_steps); fprintf(' 最短距离:%.4f\n', final_dist); fprintf(' 避障状态:无碰撞\n'); fprintf('=========================================\n'); %% 绘图 figure('Color','w','Position',[80,80,1200,380]); subplot(1,3,1); plot(1:max_episode, reward_curve, 'b-','LineWidth',1.6); xlabel('训练轮数'); ylabel('总奖励'); title('奖励收敛曲线'); grid on; subplot(1,3,2); plot(1:max_episode, episode_path_distance, 'r-','LineWidth',1.6); xlabel('训练轮数'); ylabel('路径总距离'); title('距离收敛曲线'); grid on; subplot(1,3,3); hold on; grid on; axis equal; view(3); xlabel('X'); ylabel('Y'); zlabel('Z'); title(sprintf('最优路径 | 步数:%d | 距离:%.2f | 无碰撞',final_steps,final_dist)); xlim([1 x_max]); ylim([1 y_max]); zlim([1 z_max]); plot3(start_state(1),start_state(2),start_state(3),'rs','MarkerSize',11,'LineWidth',2); plot3(end_state(1),end_state(2),end_state(3),'gd','MarkerSize',11,'LineWidth',2); scatter3(obstacle(:,1),obstacle(:,2),obstacle(:,3),100,'k','filled'); plot3(path(:,1),path(:,2),path(:,3),'m-','LineWidth',2.8,'MarkerSize',5); legend('起点','终点','障碍物','最优路径','Location','best');
在这里插入图片描述

七、完整MATLAB见下方名片

Read more

人工智能:深度学习模型的优化策略与实战调参

人工智能:深度学习模型的优化策略与实战调参

人工智能:深度学习模型的优化策略与实战调参 💡 学习目标:掌握深度学习模型的核心优化方法,理解调参的底层逻辑,能够独立完成模型从欠拟合到高性能的调优过程。 💡 学习重点:正则化技术的应用、优化器的选择与参数调整、批量大小与学习率的匹配策略。 48.1 模型优化的核心目标与常见问题 在深度学习项目中,我们训练的模型往往会出现欠拟合或过拟合两种问题。优化的核心目标就是让模型在训练集和测试集上都能达到理想的性能,实现泛化能力的最大化。 ⚠️ 注意:模型优化不是一次性操作,而是一个“诊断-调整-验证”的循环过程,需要结合数据特性和任务需求逐步迭代。 48.1.1 欠拟合的识别与特征 欠拟合是指模型无法捕捉数据中的潜在规律,表现为训练集和测试集的准确率都偏低。 出现欠拟合的常见原因有以下3点: 1. 模型结构过于简单,无法拟合复杂的数据分布。 2. 训练数据量不足,或者数据特征维度太低。 3. 训练轮次不够,模型还未充分学习到数据的特征。 48.1.2 过拟合的识别与特征 过拟合是指模型在训练集上表现极好,但在测试集上性能大幅下降。 出现过拟合的常见原因有以下3点:

Claude Code安装与使用完全指南:2026 年最前沿的 AI 编程助手

Claude Code安装与使用完全指南:2026 年最前沿的 AI 编程助手

文章目录 * 前言 * 一、什么是 Claude Code? * 1.1 定义与定位 * 1.2 技术优势 * 二、安装前的环境准备 * 2.1 系统要求 * 2.2 前置依赖 * 三、Claude Code 全平台安装教程 * 3.1 安装方式对比 * 3.2 Windows 系统安装 * 3.3 macOS 系统安装 * 3.5 安装后初始化 * 四、配置与优化 * 4.1 配置文件位置 * 4.2 跳过新手引导 * 4.3 接入国产大模型(免翻墙方案)

本地化部署方案:GraphRAG+LangChain+Ollama 驱动 LLaMa 3.1 集成 Neo4j 实战

本地化部署方案:GraphRAG+LangChain+Ollama 驱动 LLaMa 3.1 集成 Neo4j 实战

本文将带您从零开始,用不到50行核心代码实现基于本地大模型 LLaMa 3.1 的 GraphRAG 应用开发。我们将整合 LangChain 工作流、Ollama 模型管理工具与 Neo4j 图数据库,构建一套支持实体关系挖掘与混合检索的增强生成系统,全程无需依赖云端 API,兼顾数据安全与开发效率。 一、先搞懂核心概念:什么是 GraphRAG? 传统 RAG(检索增强生成)依赖向量数据库的语义相似度匹配,容易丢失实体间的关联信息。而 GraphRAG(图检索增强生成) 则通过"节点-关系"的图结构建模数据,将分散的文本块转化为结构化知识网络,让 LLM 能基于实体关联进行推理,输出更具逻辑性的答案。 其核心价值在于: * 结构化上下文:将"蒂姆·库克""苹果公司&

Llama Factory微调显存参考表:从7B到72B模型的实战验证

Llama Factory微调显存参考表:从7B到72B模型的实战验证 大语言模型微调是当前AI领域的热门技术,但显存需求往往成为实践中的拦路虎。LLaMA-Factory作为流行的微调框架,官方提供了一份显存参考表,但实际部署时我们常会遇到"理论值"与"实测值"不符的情况。本文将带你通过云实例批量验证7B到72B模型的显存占用规律,为你的微调实践提供可靠依据。 为什么需要验证显存参考表 微调大模型时,显存不足是最常见的报错原因。LLaMA-Factory官方参考表虽然给出了不同模型规模下的显存预估,但实际运行时会受到以下因素影响: * 微调方法差异:全参数微调、LoRA、QLoRA等方法对显存的需求可能相差数倍 * 精度选择:float32、bfloat16、float16等不同精度直接影响显存占用 * 批次大小和序列长度:较长的文本序列会指数级增加显存消耗 * 框架版本差异:如某些commit可能意外修改默认数据类型 这类任务通常需要GPU环境,目前ZEEKLOG算力平台提供了包含LLaMA-Factory的预置环境,可快速部署验证。 测试环境搭建与配置