本文介绍了一篇发表在《IEEE Transactions on Cognitive Communications and Networking》2021年3月刊上的研究论文,题为《Multi-Agent Deep Reinforcement Learning-Based Trajectory Planning for Multi-UAV Assisted Mobile Edge Computing》。该研究由Liang Wang、Kezhi Wang、Cunhua Pan、Wei Xu、Nauman Aslam和Lajos Hanzo等作者共同完成,分别来自英国诺森比亚大学、伦敦玛丽女王大学、东南大学和南安普顿大学等机构。
随着无人机(Unmanned Aerial Vehicle, UAV)技术的快速发展,UAV在无线通信系统中的应用前景广阔。UAV能够灵活部署在三维空间中,为地面用户设备(User Equipment, UE)提供无线连接,尤其在自然灾害或基础设施受损的情况下,UAV可以迅速补充或替代传统基站。此外,UAV与移动边缘计算(Mobile Edge Computing, MEC)的结合,能够显著提升用户体验,尤其是在计算密集型任务的处理上。然而,如何优化多个UAV的飞行轨迹、负载均衡以及能量消耗,仍然是一个复杂的挑战。
本研究的目标是通过多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning, MADRL)方法,优化多个UAV的飞行轨迹和任务卸载决策,以实现以下三个目标:1)最大化地面用户的地理公平性;2)最大化每个UAV的负载公平性;3)最小化所有用户的总体能量消耗。
研究提出了一个基于多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)的轨迹控制算法。具体流程如下:
系统模型:研究假设在一个边长为Lmax的正方形区域内,随机分布着N个用户设备(UE),并由M个UAV提供服务。每个UAV在固定高度h上飞行,并根据用户的任务需求进行任务卸载决策。每个UE在每个时间槽(Time Slot, TS)内生成一个计算任务,任务可以选择在本地执行或卸载到某个UAV上。
优化问题:研究将问题建模为一个混合整数优化问题,目标是最小化所有UE的总能量消耗,同时最大化地理公平性和UAV负载公平性。该问题涉及连续变量(如UAV的飞行方向和距离)和离散变量(如任务卸载决策),传统的凸优化和动态规划方法难以解决。
多智能体深度强化学习算法:研究提出了一个基于MADDPG的多智能体马尔可夫决策过程(Markov Decision Process, MDP)。每个UAV由一个独立的智能体控制,智能体通过与环境交互来学习最优策略。每个智能体包括一个Actor网络和一个Critic网络,分别用于生成动作和评估动作的价值。训练过程中,智能体通过经验回放和目标网络来提高训练的稳定性和收敛性。
任务卸载决策:在UAV的飞行轨迹确定后,研究提出了一种低复杂度的任务卸载决策方法。每个UE选择能够最小化能量消耗的UAV进行任务卸载,否则选择本地执行。
研究通过仿真实验验证了所提出算法的性能。实验结果表明,与传统的随机飞行和圆形飞行算法相比,所提出的MADRL算法在以下方面表现优异: 1. 公平性:MADRL算法能够显著提高用户的地理公平性和UAV负载公平性。随着时间槽的增加,公平性指数逐渐接近1,表明所有用户和UAV的负载趋于均衡。 2. 能量消耗:MADRL算法能够有效降低所有UE的总能量消耗,尤其是在多UAV协同工作的情况下,能量消耗显著低于其他基准算法。 3. 轨迹规划:MADRL算法能够使UAV在目标区域内协同飞行,覆盖更多的用户,并避免碰撞。
本研究提出了一种基于多智能体深度强化学习的UAV轨迹规划算法,成功解决了多UAV辅助移动边缘计算中的复杂优化问题。该算法不仅能够提高用户的地理公平性和UAV负载公平性,还能显著降低能量消耗。研究的意义在于: 1. 科学价值:通过将深度强化学习应用于UAV轨迹规划,研究为复杂优化问题提供了一种新的解决方案,推动了多智能体系统在无线通信中的应用。 2. 应用价值:该算法在实际应用中具有广泛前景,特别是在自然灾害救援、农业监测和智慧城市等领域,能够有效提升通信系统的性能和用户体验。
研究还详细讨论了算法的训练过程,包括经验回放、目标网络和优先级采样等技术,这些技术有效提高了算法的收敛性和稳定性。此外,研究还提供了大量的仿真参数和实验结果,为后续研究提供了参考。
总的来说,本研究为多UAV辅助移动边缘计算系统的优化提供了新的解决方案,具有重要的理论和实践意义。