本文由来自北京航空航天大学的Huan Chang、Yicheng Chen、Baochang Zhang(IEEE高级会员)与美国纽约州立大学水牛城分校的David Doermann(IEEE会士)合作完成,其中Baochang Zhang为通讯作者。该研究发表于2021年,目前可在arXiv预印本平台上获取(arXiv:2102.02778v3 [cs.MA])。
本研究属于无人机(UAV)网络与移动边缘计算(Mobile Edge Computing, MEC)交叉领域。随着5G等通信技术的发展,移动边缘计算作为网络边缘集成计算、存储和智能服务的技术,在近年来成为电信领域发展最快的主题之一。
传统基站难以满足终端用户在不确定环境和极端情况下的计算需求,而无人机因其灵活性和成本效益成为理想的移动边缘计算服务器。然而,在复杂环境中使用无人机仍面临三大挑战:(1)存在障碍物的工作环境复杂性;(2)终端用户分布的不确定性;(3)无人机能量限制。本研究旨在通过强化学习框架,建立一个统一的多无人机移动边缘计算和路径规划平台,以解决上述挑战。
研究首先构建了一个包含障碍物和终端用户的环境模型。障碍物位置和风险暴露概率服从高斯分布,其风险值计算采用公式:
r_i(x,y) = (1/√(2πσ))·e^(-d²/2σ),其中d为点到障碍物的欧式距离
终端用户需求采用sigmoid-like函数建模:
u(d_j) = 1 - exp[-(d_j)^η/(d_j + β)]
这种非线性需求检测函数能增强强信号、减弱弱信号,相比传统线性需求函数能提高系统性能。
研究提出一个基于奖励矩阵的强化学习路径规划方法,其主要创新点包括: - 在同一个强化学习框架中优化移动边缘计算的QoS和路径规划 - 采用综合考量终端用户需求、风险和几何距离的奖励矩阵 - 设计多无人机协作机制,实现几何和终端用户信息共享
奖励矩阵定义为:
a_{p_i,pr} = d{p_i,p_r} + k∫_c r(x,y)ds + m/(1+Σu(d_j))
其中k和m分别为风险容忍度和服务优先级参数,可根据任务需求调整。
研究采用迭代算法生成成本矩阵G: 1. 初始化成本矩阵,目标点值为0,其他点为∞ 2. 随机选择地图位置p_r,更新各点pi的值: g{pi}^{k+1} = min{g{pi}^k, a{p_i,pr} + g{p_r}^k} 3. 重复迭代直至收敛
基于成本矩阵生成路径的算法不断选择G中成本最低的点加入路径,直到到达目标点或达到最大长度。
每架无人机作为独立agent,拥有自己的记忆D_i和成本矩阵G_i。无人机按顺序移动以实现信息共享,移动过程中会扫描周围环境(扫描半径为r),如果发现新障碍物(包括其他无人机)则更新记忆并重新计算路径。
实验数据显示: - 当m从0.01增至0.5时,QoS从0.87提高到1.00,平均风险从1.68增至4.42 - 当k从0.5增至100时,平均路径风险从6.98降至0.36
相比线性需求函数,sigmoid需求函数: - 能获得更高的QoS(相同条件下) - 提高终端用户服务速度(相同QoS下) - 鼓励无人机优先服务需求高的终端用户,防止过度服务单一用户
研究将提出的强化学习方法与传统A*算法比较,结果显示: - 强化学习方法在复杂环境中表现更优,能有效避开障碍物同时服务终端用户 - A*算法容易陷入死锁(特别是k值较高时),且QOS较低 - 强化学习方法能通过调整参数灵活适应不同任务需求
本研究开发了首个基于强化学习的多无人机移动边缘计算与路径规划平台,其主要贡献包括: 1. 在一个统一框架中整合了移动边缘计算的QoS优化和路径规划 2. 创新性地提出sigmoid终端用户需求描述函数 3. 实现多无人机协作机制,确保成本节约和避障 4. 提供完整的开源平台(代码见GitHub:https://github.com/bczhangbczhang)
该研究具有重要科学价值和应用前景: - 科学价值:为移动边缘计算和无人机路径规划的交叉研究提供了新的方法论框架 - 应用价值:可直接应用于无人机物流、灾害救援、移动通信增强等实际场景 - 技术创新:奖励矩阵设计、sigmoid需求函数、多无人机协作机制均为原创性贡献