摘要
随着 5G 通信、物联网与边缘计算技术的深度融合,多无人机辅助边缘计算网络(UAV-MEC)已成为解决动态场景下低延迟计算服务的关键范式。然而,传统路径规划方法在应对高维动态状态(如用户任务分布、网络负载、无人机剩余电量)时存在适应性不足的问题。深度强化学习(DRL)通过神经网络拟合策略或价值函数,为多无人机协同路径规划提供了端到端优化框架。本文聚焦 DRL 在 UAV-MEC 网络中的应用,系统梳理其技术架构、核心算法与典型场景,并提出面向实际部署的挑战与解决方案。
1 概述
移动边缘计算(MEC)使得网络边缘的计算能力能够灵活快速地部署创新的应用和服务,为大量物联网设备提供支持。有了 MEC 的部署,设备可以将计算密集型任务转移到附近强大的边缘服务器,以减少延迟和节省能量。与固定的边缘服务器不同,最近的一些工作致力于移动边缘服务器的研究,它可以在恶劣环境中提供更灵活、更经济和更高效的计算服务。最近的一些文献提出使用无人机来改善地面物联网设备的连接性。无人机辅助无线通信在灵活部署、完全可控的移动性和增强网络性能方面具有优势,因此引起了越来越多的研究兴趣。因此,无人机辅助边缘计算网络是一个自然的选择和有前景的范式,在其中如何优化无人机的飞行路径以满足大量设备的通信和计算需求成为一个重要且具有挑战性的问题。
一、研究背景与意义
1.1 边缘计算与无人机的融合需求
传统云计算模式因传输延迟高、网络拥塞等问题,难以满足实时性要求高的应用场景(如远程医疗、自动驾驶)。边缘计算通过将计算资源下沉至网络边缘,显著降低数据传输延迟,但固定边缘节点的覆盖范围有限。无人机凭借其灵活部署能力,可作为移动边缘节点(UAV-MEC),动态扩展边缘计算网络的覆盖范围。例如,在灾害救援场景中,无人机可快速抵达灾区,为受灾用户提供临时计算服务,弥补地面基础设施的损毁。
1.2 多无人机路径规划的挑战
多无人机协同路径规划需同时满足以下核心目标:
- 覆盖最大化:确保用户任务可接入边缘节点,避免服务盲区;
- 延迟最小化:缩短任务卸载与处理时间,提升用户体验;
- 能耗均衡化:延长多机协同续航时间,降低运维成本。
传统方法(如 A*、RRT*)难以处理高维动态状态,而 DRL 通过神经网络直接从原始数据(如传感器感知的环境信息、用户任务请求)中学习最优策略,为复杂环境下的路径决策提供了新范式。
二、多无人机辅助边缘计算网络架构
2.1 网络组成与功能
UAV-MEC 网络由'无人机集群 - 地面用户 - 核心网络'三层架构组成:
- 无人机集群:搭载边缘计算模块(CPU、内存、通信单元),作为移动边缘节点提供计算服务;
- 地面用户:通过无线通信向 UAV-MEC 卸载计算任务(如视频分析、实时监测);
- 核心网络:负责全局任务调度与数据汇总,协调无人机间的资源分配。
2.2 路径规划的协同需求
多无人机路径规划需突破传统'避障 - 最短路径'框架,满足三维协同需求:
- 空间覆盖协同:无人机位置需覆盖高任务密度区域,避免服务盲区;
- 资源负载协同:平衡各无人机的计算资源利用率,防止任务过载导致延迟激增;
- 通信质量协同:确保无人机与用户、无人机间的通信链路稳定(如避免障碍物遮挡导致的信号衰减)。
三、深度强化学习在路径规划中的适配性
3.1 技术优势
DRL 通过神经网络拟合策略或价值函数,完美适配多无人机路径规划需求:
- 高维状态处理:卷积神经网络(CNN)可提取环境图像中的障碍物与用户分布特征,循环神经网络(RNN)能处理任务请求的时序动态;
- 连续动作空间支持:深度确定性策略梯度(DDPG)、近端策略优化(PPO)等算法可直接输出连续动作(如无人机的速度向量);
- 端到端优化:无需人工建模复杂环境模型,通过与环境的交互自主学习'状态 - 动作 - 奖励'映射,适应动态场景。

