本文介绍了一项关于无人机辅助边缘计算(UAV-assisted Edge Computing, UEC)中基于学习的计算卸载方法的研究。该研究由Shichao Zhu、Lin Gui、Dongmei Zhao、Nan Cheng、Qi Zhang和Xiupu Lang等人共同完成,并于2021年1月发表在《IEEE Transactions on Vehicular Technology》期刊上。研究的主要目标是解决在无人机辅助边缘计算场景中,如何通过任务分配和带宽分配来最小化复杂计算任务的平均响应时间。
随着5G技术的快速发展,计算密集型服务(如虚拟现实、自动驾驶和视频导航)的需求急剧增加,这对便携设备的计算资源提出了严峻挑战。边缘计算(Edge Computing, EC)作为一种解决方案,允许将计算任务卸载到边缘服务器上执行。然而,现有的边缘计算基础设施(如LTE基站或Wi-Fi接入点)并不总是具备强大的计算资源。因此,移动平台(如汽车和无人机)被视为边缘服务器的潜在候选者。无人机(UAV)由于其灵活性和可扩展性,逐渐成为边缘计算的重要组成部分。无人机不仅可以执行其主要任务(如包裹递送、环境监测等),还可以作为边缘服务器提供额外的计算服务。
本研究旨在提出一种基于多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)的计算卸载方法,以最小化复杂计算任务的平均响应时间。研究考虑了任务之间的相互依赖性、动态网络状态以及无人机的能量约束,并将问题建模为马尔可夫决策过程(Markov Decision Process, MDP)。通过设计状态、动作和奖励函数,研究提出了一种多智能体强化学习框架,能够有效地处理任务分配和带宽分配的复杂决策问题。
研究首先将问题建模为MDP,设计了状态、动作和奖励函数。状态包括当前时间、任务流模型、任务索引、上游任务执行者、并行任务执行者、任务输入数据大小、无人机的剩余能量等信息。动作包括选择目标帮助者和分配带宽。奖励函数则与任务的响应时间相关,旨在最小化平均响应时间。
为了应对多智能体强化学习中的信用分配问题,研究提出了分别针对任务分配和带宽分配的两个智能体,并设计了相应的优势评估函数。此外,研究还提出了从在线策略(on-policy)到离线策略(off-policy)的扩展,以提高训练效率并减少训练成本。
通过大量的仿真实验,研究验证了所提出方法的收敛性和有效性。实验结果表明,与单智能体强化学习和贪婪算法相比,所提出的多智能体强化学习方法能够显著减少复杂任务的平均响应时间。特别是在任务拓扑结构复杂、任务到达间隔短、无人机数量多的情况下,所提出的方法表现尤为突出。
本研究的主要贡献包括: 1. 提出了在无人机辅助边缘计算场景中,考虑任务分配、带宽分配和能量约束的计算卸载问题,并将其建模为MDP。 2. 设计了一种多智能体强化学习框架,通过分离任务分配和带宽分配的决策,解决了多智能体信用分配问题。 3. 提出了从在线策略到离线策略的扩展,进一步提高了算法的训练效率。 4. 通过仿真实验验证了所提出方法的优越性,特别是在复杂任务拓扑和动态网络环境下的表现。
本研究为无人机辅助边缘计算框架的设计和实现提供了有价值的见解。通过最小化复杂计算任务的平均响应时间,研究为未来无人机在边缘计算中的应用提供了理论支持和技术指导。此外,所提出的多智能体强化学习方法也为其他网络资源分配问题提供了新的解决思路。
未来的研究方向包括考虑多基站场景下的部分协作机制,以及进一步优化无人机辅助边缘计算的能量效率和任务调度策略。