本文由Shaoyu Wang、Yang Huang和Bruno Clerckx共同撰写,分别来自南京航空航天大学电子与信息工程学院和伦敦帝国理工学院电气与电子工程系。该研究发表于2022年IEEE国际通信会议(ICC),题为《Dynamic Air-Ground Collaboration for Multi-Access Edge Computing》。该研究旨在解决第五代(5G)及未来网络中多接入边缘计算(Multi-Access Edge Computing, MEC)在动态空地一体化网络中的资源分配问题,提出了一种基于强化学习(Reinforcement Learning, RL)的联合在线轨迹规划和任务卸载调度方案。
随着无人机(Unmanned Aerial Vehicles, UAVs)技术的快速发展,其在5G及未来网络中的应用潜力日益凸显。UAVs能够通过提供灵活的通信和计算资源,显著提升地面用户设备(User Equipment, UE)的服务质量(Quality of Service, QoS)。然而,现有的MEC设计在动态空地一体化网络中面临挑战,尤其是在时间和空间变化的通信与计算需求与分布式资源的匹配方面。现有的研究主要集中在任务卸载到UAV或地面基站(Base Station, BS)的优化上,但这些研究未能充分利用UAV与地面网络的协同潜力。本文通过提出一种基于强化学习的联合在线轨迹规划和任务卸载调度方案,旨在解决这一问题。
本研究的主要流程包括以下几个步骤:
系统建模:研究首先构建了一个多小区网络模型,其中UAV作为飞行边缘计算节点,与多个地面基站协同工作。每个基站与其关联的UE构成一个小区,UAV在固定高度飞行,提供边缘计算服务。
任务卸载与计算模型:每个UE在时隙内持续生成计算任务,任务的统计特性未知。任务可以在本地执行,也可以卸载到UAV或关联的基站。任务的卸载调度决策基于前一时刻的任务生成情况,并在下一时刻执行。
马尔可夫决策过程(MDP)建模:为了应对高维状态/动作空间的“维度灾难”问题,研究将UAV的轨迹规划和每个小区的任务卸载调度分别建模为相互嵌入的MDP。通过这种方式,UAV的轨迹规划和每个小区的任务卸载调度可以相互利用彼此的状态信息。
强化学习算法设计:研究提出了两种基于深度Q网络(Deep Q-Network, DQN)和核方法的强化学习算法。DQN算法通过深度神经网络估计动作值,而核方法则通过线性组合核函数来估计动作值,并通过半梯度时间差分(Temporal Difference, TD)方法更新权重向量。
仿真与结果分析:通过仿真实验,研究验证了所提出算法的有效性。结果表明,基于学习的策略能够使联合轨迹规划和任务卸载调度适应动态计算需求,显著优于仅依赖地面网络的MEC方案。
研究的主要结果包括: - 任务积压减少:通过动态空地协作,MEC能够显著减少新生成任务比特的平均积压量。 - 算法性能对比:基于核方法的算法在决策时间上显著优于基于DQN的算法,具有更高的计算效率。 - 适应性:所提出的算法能够根据任务生成的变化动态调整UAV的轨迹和任务卸载调度,确保任务处理的及时性。
本文的研究为动态空地一体化网络中的MEC提供了一种有效的解决方案。通过联合在线轨迹规划和任务卸载调度,UAV与地面基站能够协同提供边缘计算服务,显著提升了任务处理的效率。该研究不仅具有重要的科学价值,还为未来5G及6G网络中的边缘计算应用提供了新的思路。
研究还通过仿真实验详细分析了UAV的轨迹规划、任务卸载调度决策与任务积压之间的关系,进一步验证了所提出算法的有效性和鲁棒性。此外,研究还探讨了不同任务生成模式下的系统性能,为未来的实际应用提供了参考。
总之,本文通过创新的算法设计和系统建模,为动态空地一体化网络中的MEC提供了高效的解决方案,具有重要的理论和应用价值。