基于多智能体深度强化学习的多无人机辅助移动边缘计算轨迹规划

分享自：
基于多智能体深度强化学习的多无人机辅助移动边缘计算轨迹规划

人工智能
电气科学与工程
工程学
计算机科学
信息科学
期刊:IEEE Transactions on Cognitive Communications and NetworkingDOI:10.1109/TCCN.2020.3027695
【点击此处】阅读全文、收藏及针对性提问
本文介绍了一篇发表在《IEEE Transactions on Cognitive Communications and Networking》2021年3月刊上的研究论文，题为《Multi-Agent Deep Reinforcement Learning-Based Trajectory Planning for Multi-UAV Assisted Mobile Edge Computing》。该研究由Liang Wang、Kezhi Wang、Cunhua Pan、Wei Xu、Nauman Aslam和Lajos Hanzo等作者共同完成，分别来自英国诺森比亚大学、伦敦玛丽女王大学、东南大学和南安普顿大学等机构。
研究背景与目标随着无人机（Unmanned Aerial Vehicle, UAV）技术的快速发展，UAV在无线通信系统中的应用前景广阔。UAV能够灵活部署在三维空间中，为地面用户设备（User Equipment, UE）提供无线连接，尤其在自然灾害或基础设施受损的情况下，UAV可以迅速补充或替代传统基站。此外，UAV与移动边缘计算（Mobile Edge Computing, MEC）的结合，能够显著提升用户体验，尤其是在计算密集型任务的处理上。然而，如何优化多个UAV的飞行轨迹、负载均衡以及能量消耗，仍然是一个复杂的挑战。
本研究的目标是通过多智能体深度强化学习（Multi-Agent Deep Reinforcement Learning, MADRL）方法，优化多个UAV的飞行轨迹和任务卸载决策，以实现以下三个目标：1）最大化地面用户的地理公平性；2）最大化每个UAV的负载公平性；3）最小化所有用户的总体能量消耗。
研究方法与流程研究提出了一个基于多智能体深度确定性策略梯度（Multi-Agent Deep Deterministic Policy Gradient, MADDPG）的轨迹控制算法。具体流程如下：
系统模型：研究假设在一个边长为Lmax的正方形区域内，随机分布着N个用户设备（UE），并由M个UAV提供服务。每个UAV在固定高度h上飞行，并根据用户的任务需求进行任务卸载决策。每个UE在每个时间槽（Time Slot, TS）内生成一个计算任务，任务可以选择在本地执行或卸载到某个UAV上。
优化问题：研究将问题建模为一个混合整数优化问题，目标是最小化所有UE的总能量消耗，同时最大化地理公平性和UAV负载公平性。该问题涉及连续变量（如UAV的飞行方向和距离）和离散变量（如任务卸载决策），传统的凸优化和动态规划方法难以解决。
多智能体深度强化学习算法：研究提出了一个基于MADDPG的多智能体马尔可夫决策过程（Markov Decision Process, MDP）。每个UAV由一个独立的智能体控制，智能体通过与环境交互来学习最优策略。每个智能体包括一个Actor网络和一个Critic网络，分别用于生成动作和评估动作的价值。训练过程中，智能体通过经验回放和目标网络来提高训练的稳定性和收敛性。
任务卸载决策：在UAV的飞行轨迹确定后，研究提出了一种低复杂度的任务卸载决策方法。每个UE选择能够最小化能量消耗的UAV进行任务卸载，否则选择本地执行。
实验结果研究通过仿真实验验证了所提出算法的性能。实验结果表明，与传统的随机飞行和圆形飞行算法相比，所提出的MADRL算法在以下方面表现优异： 1. 公平性：MADRL算法能够显著提高用户的地理公平性和UAV负载公平性。随着时间槽的增加，公平性指数逐渐接近1，表明所有用户和UAV的负载趋于均衡。 2. 能量消耗：MADRL算法能够有效降低所有UE的总能量消耗，尤其是在多UAV协同工作的情况下，能量消耗显著低于其他基准算法。 3. 轨迹规划：MADRL算法能够使UAV在目标区域内协同飞行，覆盖更多的用户，并避免碰撞。
结论与意义本研究提出了一种基于多智能体深度强化学习的UAV轨迹规划算法，成功解决了多UAV辅助移动边缘计算中的复杂优化问题。该算法不仅能够提高用户的地理公平性和UAV负载公平性，还能显著降低能量消耗。研究的意义在于： 1. 科学价值：通过将深度强化学习应用于UAV轨迹规划，研究为复杂优化问题提供了一种新的解决方案，推动了多智能体系统在无线通信中的应用。 2. 应用价值：该算法在实际应用中具有广泛前景，特别是在自然灾害救援、农业监测和智慧城市等领域，能够有效提升通信系统的性能和用户体验。
研究亮点创新性：研究首次将多智能体深度强化学习应用于多UAV辅助移动边缘计算中的轨迹规划和任务卸载决策，解决了传统方法难以处理的混合整数优化问题。
高效性：所提出的算法在公平性和能量消耗方面均优于传统算法，尤其是在多UAV协同工作的情况下，表现尤为突出。
实用性：算法具有较强的实用性，能够适应动态变化的通信环境，并为未来的UAV应用提供了新的思路。
其他有价值的内容研究还详细讨论了算法的训练过程，包括经验回放、目标网络和优先级采样等技术，这些技术有效提高了算法的收敛性和稳定性。此外，研究还提供了大量的仿真参数和实验结果，为后续研究提供了参考。
总的来说，本研究为多UAV辅助移动边缘计算系统的优化提供了新的解决方案，具有重要的理论和实践意义。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问