基于强化学习的多无人机移动边缘计算与路径规划平台

分享自：
基于强化学习的多无人机移动边缘计算与路径规划平台

航空航天工程
人工智能
期刊:IEEE
基于强化学习的多无人机移动边缘计算与路径规划平台研究作者与发表信息本文由来自北京航空航天大学的Huan Chang、Yicheng Chen、Baochang Zhang（IEEE高级会员）与美国纽约州立大学水牛城分校的David Doermann（IEEE会士）合作完成，其中Baochang Zhang为通讯作者。该研究发表于2021年，目前可在arXiv预印本平台上获取（arXiv:2102.02778v3 [cs.MA]）。
学术背景本研究属于无人机（UAV）网络与移动边缘计算（Mobile Edge Computing, MEC）交叉领域。随着5G等通信技术的发展，移动边缘计算作为网络边缘集成计算、存储和智能服务的技术，在近年来成为电信领域发展最快的主题之一。
传统基站难以满足终端用户在不确定环境和极端情况下的计算需求，而无人机因其灵活性和成本效益成为理想的移动边缘计算服务器。然而，在复杂环境中使用无人机仍面临三大挑战：（1）存在障碍物的工作环境复杂性；（2）终端用户分布的不确定性；（3）无人机能量限制。本研究旨在通过强化学习框架，建立一个统一的多无人机移动边缘计算和路径规划平台，以解决上述挑战。
研究流程与方法1. 环境建模研究首先构建了一个包含障碍物和终端用户的环境模型。障碍物位置和风险暴露概率服从高斯分布，其风险值计算采用公式：
r_i(x,y) = (1/√(2πσ))·e^(-d²/2σ)，其中d为点到障碍物的欧式距离
终端用户需求采用sigmoid-like函数建模：
u(d_j) = 1 - exp[-(d_j)^η/(d_j + β)]
这种非线性需求检测函数能增强强信号、减弱弱信号，相比传统线性需求函数能提高系统性能。
2. 强化学习框架设计研究提出一个基于奖励矩阵的强化学习路径规划方法，其主要创新点包括： - 在同一个强化学习框架中优化移动边缘计算的QoS和路径规划 - 采用综合考量终端用户需求、风险和几何距离的奖励矩阵 - 设计多无人机协作机制，实现几何和终端用户信息共享
奖励矩阵定义为：
a_{p_i,pr} = d{p_i,p_r} + k∫_c r(x,y)ds + m/(1+Σu(d_j))
其中k和m分别为风险容忍度和服务优先级参数，可根据任务需求调整。
3. 成本矩阵与路径规划研究采用迭代算法生成成本矩阵G： 1. 初始化成本矩阵，目标点值为0，其他点为∞ 2. 随机选择地图位置p_r，更新各点pi的值： g{pi}^{k+1} = min{g{pi}^k, a{p_i,pr} + g{p_r}^k} 3. 重复迭代直至收敛
基于成本矩阵生成路径的算法不断选择G中成本最低的点加入路径，直到到达目标点或达到最大长度。
4. 多无人机协作机制每架无人机作为独立agent，拥有自己的记忆D_i和成本矩阵G_i。无人机按顺序移动以实现信息共享，移动过程中会扫描周围环境（扫描半径为r），如果发现新障碍物（包括其他无人机）则更新记忆并重新计算路径。
主要研究成果1. 不同参数对规划结果的影响服务优先级参数m：增大m会提高QoS（服务终端用户更多），但会增加风险和路径长度（能量消耗）
风险容忍度参数k：增大k会使无人机更倾向于避开风险，但可能导致无法服务部分终端用户
实验数据显示： - 当m从0.01增至0.5时，QoS从0.87提高到1.00，平均风险从1.68增至4.42 - 当k从0.5增至100时，平均路径风险从6.98降至0.36
2. sigmoid需求函数的优势相比线性需求函数，sigmoid需求函数： - 能获得更高的QoS（相同条件下） - 提高终端用户服务速度（相同QoS下） - 鼓励无人机优先服务需求高的终端用户，防止过度服务单一用户
3. 与A*算法的比较研究将提出的强化学习方法与传统A*算法比较，结果显示： - 强化学习方法在复杂环境中表现更优，能有效避开障碍物同时服务终端用户 - A*算法容易陷入死锁（特别是k值较高时），且QOS较低 - 强化学习方法能通过调整参数灵活适应不同任务需求
结论与价值本研究开发了首个基于强化学习的多无人机移动边缘计算与路径规划平台，其主要贡献包括： 1. 在一个统一框架中整合了移动边缘计算的QoS优化和路径规划 2. 创新性地提出sigmoid终端用户需求描述函数 3. 实现多无人机协作机制，确保成本节约和避障 4. 提供完整的开源平台（代码见GitHub：https://github.com/bczhangbczhang）
该研究具有重要科学价值和应用前景： - 科学价值：为移动边缘计算和无人机路径规划的交叉研究提供了新的方法论框架 - 应用价值：可直接应用于无人机物流、灾害救援、移动通信增强等实际场景 - 技术创新：奖励矩阵设计、sigmoid需求函数、多无人机协作机制均为原创性贡献
研究亮点方法创新：首次将移动边缘计算QoS优化与路径规划统一在一个强化学习框架中
技术突破：设计的sigmoid-like需求函数相比传统线性函数显著提高了系统性能
多机协作：实现多无人机间的信息共享与协调避障，解决了实际应用中的关键挑战
参数灵活：通过调整k和m参数，可适应不同任务需求（优先服务或优先安全）
开源贡献：提供完整开源平台，推动相关研究的可重复性和进一步发展
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问