本文由Yang Huang、Miaomiao Dong、Yijie Mao、Wenqiang Liu和Zhen Gao共同撰写,发表于2024年8月的《IEEE Transactions on Vehicular Technology》第73卷第8期。研究的主要背景是移动边缘计算(Mobile Edge Computing, MEC)与无人机(Unmanned Aerial Vehicle, UAV)的结合应用。随着5G技术的广泛应用,物联网(Internet of Things, IoT)设备对计算能力和能源供应的需求日益增加,尤其是在计算密集型和延迟敏感的服务场景中,传统的MEC服务器难以应对突发的计算任务需求。因此,利用无人机搭载边缘服务器辅助地面MEC系统成为一种潜在的解决方案。然而,现有的基于确定性优化或单目标强化学习(Reinforcement Learning, RL)的方案无法在高度动态的网络环境中同时减少任务积压并提高能源效率。为此,本文提出了一种分布式多目标(Multi-Objective, MO)动态轨迹规划和任务卸载调度方案,结合了多目标强化学习(Multi-Objective Reinforcement Learning, MORL)和核方法(Kernel Method),并引入了n步回报(n-step return)设计来平滑任务积压的波动。
随着5G技术的普及,物联网设备的计算任务需求急剧增加,尤其是在计算密集型和延迟敏感的服务场景中。传统的MEC服务器虽然能够帮助物联网设备将计算任务卸载到边缘服务器,但在面对突发任务需求时,仍然存在处理能力不足的问题。无人机由于其高机动性和灵活性,能够通过视距(Line-of-Sight, LOS)信道辅助地面MEC系统,成为解决这一问题的潜在方案。然而,现有的任务卸载调度方法主要基于确定性优化或单目标强化学习,无法在动态网络环境中同时优化能源效率和任务积压。本文旨在解决这一问题,提出了一种分布式多目标动态轨迹规划和任务卸载调度方案,结合了MORL和核方法,并通过n步回报设计来平滑任务积压的波动。
本文的研究流程主要包括以下几个步骤:
系统模型与问题建模:研究系统由一个无人机、一个地面基站(Base Station, BS)和多个固定地面用户设备(User Equipment, UE)组成。每个UE可以选择在本地处理计算任务,或将任务卸载到无人机或基站的边缘服务器。研究的目标是通过联合优化无人机的轨迹规划和任务卸载调度策略,最小化长期平均能源消耗和任务积压。
分布式多目标动态轨迹规划与任务卸载调度:为了解决多目标马尔可夫决策过程(Markov Decision Process, MDP)和维度灾难(Curses of Dimensionality)问题,本文提出了一种分布式MORL方法。每个代理(Agent)共享网络和无人机的状态信息,并在各自的行动空间内进行决策。通过核方法,本文使用高斯核函数来近似动作值函数,并通过n步回报设计来平滑任务积压的波动。
核方法与n步回报设计:本文提出的核方法通过线性组合高斯核函数来近似动作值函数,并通过n步回报设计来平滑任务积压的波动。核方法的优势在于可以不断添加新的决策特征,从而提高动作值函数的近似精度。n步回报设计则通过平均多个时间步的回报来减少任务积压的波动。
深度神经网络(Deep Neural Network, DNN)基准方法:为了对比核方法的性能,本文还提出了一种基于全连接DNN的基准方法。该方法使用Adam优化器和经验回放(Experience Replay)来优化动作值函数。
通过数值仿真,本文验证了所提出的核方法在长期平均任务积压和能源消耗方面的优越性能。具体结果如下:
核方法与n步回报设计的性能:仿真结果表明,核方法结合n步回报设计能够显著降低长期平均任务积压,并且在能源消耗方面也表现出色。与传统的1步回报设计相比,n步回报设计能够更好地平滑任务积压的波动。
核方法与DNN基准方法的对比:核方法在任务积压和决策时间方面均优于DNN基准方法。核方法能够通过不断添加新的决策特征,提高动作值函数的近似精度,从而在动态环境中表现出更好的适应性。
无人机的轨迹规划:仿真结果显示,无人机在任务高峰期会倾向于停留在任务量较大的UE集群附近,以充分利用空地信道和无人机搭载的边缘服务器。
本文提出了一种基于分布式MORL和核方法的动态轨迹规划和任务卸载调度方案,解决了多目标MDP和维度灾难问题。通过n步回报设计和核方法,本文的方案在长期平均任务积压和能源消耗方面表现出色,显著优于传统的DNN基准方法。该研究为动态空地协作MEC系统提供了一种有效的解决方案,具有重要的科学价值和应用前景。
本文还详细讨论了无人机轨迹规划和任务卸载调度的具体实现细节,并通过数值仿真验证了所提出方法的有效性。此外,本文还对比了核方法与DNN基准方法的性能,进一步证明了核方法在动态环境中的优越性。