分享自:

基于混合变压器的多智能体强化学习在无人机空中走廊协调中的应用

期刊:IEEE Transactions on Mobile Computing

这篇文档属于类型a,即单篇原创研究的报告。以下是基于文档内容生成的学术报告:

主要作者及机构

本文的主要作者包括Liangkun Yu(学生会员,IEEE)、Zhirun Li、Nirwan Ansari(终身会士,IEEE)和Xiang Sun(会员,IEEE)。Liangkun Yu、Zhirun Li和Xiang Sun均来自美国新墨西哥大学电气与计算机工程系的SECNET实验室,而Nirwan Ansari则来自新泽西理工学院电气与计算工程系的高级网络实验室。本文已被IEEE Transactions on Mobile Computing接受,预计于2025年正式发表。

学术背景

本研究的主要科学领域是多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)和无人机(Unmanned Aerial Vehicle, UAV)协同控制。随着无人机在物流、交通等领域的广泛应用,如何高效管理空域中的无人机成为一个重要挑战。特别是高级空中交通(Advanced Air Mobility, AAM)系统的提出,旨在通过自主无人机在传统航空无法覆盖的区域进行乘客和货物运输。然而,大规模AAM的实现需要解决空域管理、分类和交通控制等复杂问题,以确保无人机在空域中的安全运行。

本文的研究目标是在空中走廊(Air Corridor)中实现多无人机的协同控制,使每架无人机能够基于机载传感器的局部观测自主做出控制决策。这一去中心化控制问题被建模为多智能体部分可观测马尔可夫决策过程(Multi-Agent Partially Observable Markov Decision Process, MAPOMDP),旨在最小化无人机的飞行时间,同时确保其遵守走廊边界并避免碰撞。

研究流程

1. 问题建模与系统设计

研究首先提出了空中走廊的详细设计,将水平通道建模为截断圆柱体,上下坡道建模为部分环面。这种三维设计能够有效管理空域交通,支持复杂空域中的平滑过渡。接着,研究将多无人机协同问题建模为一个优化问题,目标是最小化所有无人机的总飞行时间,同时满足速度、加速度、碰撞避免和走廊边界约束。

2. 混合Transformer多智能体强化学习框架(HTRANSRL)

为了处理动态观测维度,研究提出了一种基于Transformer的多智能体强化学习框架HTRANSRL。该框架将定制的Transformer模型集成到Actor-Critic网络中,能够有效处理不同尺寸的序列和非序列观测状态,并捕捉它们之间的相关性。HTRANSRL的核心创新在于其能够同时处理无人机自身状态、走廊结构特征以及邻近无人机和非合作飞行物体(Non-Cooperative Flying Objects, NCFOs)的状态。

3. 训练与课程学习

为了提高训练效率,研究采用了课程学习(Curriculum Learning)策略。训练从简单的任务开始,逐步增加任务复杂度,直到模型在复杂环境中达到预定的性能指标。具体来说,任务复杂度通过调整空中走廊的长度和角度来定义,模型在每个复杂度级别上训练直到达到80%的平均到达率。

4. 实验与性能评估

研究通过仿真实验验证了HTRANSRL的性能。实验设置了两种空中走廊路径(“cttcttc”和“cttcttcttc”),并在不同数量的无人机(4-36架)和复杂度的环境中进行了测试。实验结果通过蒙特卡洛模拟(300次)进行了统计分析,评估了模型的到达率、碰撞率、走廊边界穿越率以及平均飞行时间和速度。

主要结果

1. 到达率与任务复杂度

在训练环境中,HTRANSRL在最坏测试场景下的到达率超过90%。在测试环境复杂度高于训练环境的情况下,HTRANSRL表现出优于两种基线方法(HD和DS)的可扩展性,达到更高的到达率和相似的飞行时间。

2. 碰撞与边界穿越

HTRANSRL在无人机数量增加时表现出较低的碰撞率,特别是在复杂环境中。相比之下,HD和DS在无人机数量增加时碰撞率和边界穿越率显著上升。HTRANSRL通过自适应调整无人机速度,减少了碰撞和边界穿越的发生。

3. 飞行时间与速度

尽管HTRANSRL在某些情况下略微增加了飞行时间,但其在复杂环境中的表现优于基线方法。HD虽然保持了较高的飞行速度,但在复杂环境中导致更多的碰撞和边界穿越。

结论与意义

本研究提出了一种基于Transformer的多智能体强化学习框架HTRANSRL,用于解决空中走廊中的多无人机协同控制问题。该框架通过处理动态观测维度和采用课程学习策略,显著提高了无人机在复杂空域中的安全性和效率。实验结果表明,HTRANSRL在复杂环境中具有较高的到达率和较低的事故率,展示了其在未来高级空中交通系统中的潜在应用价值。

研究亮点

  1. 创新性方法:HTRANSRL首次将Transformer模型引入多无人机协同控制领域,解决了动态观测维度处理的难题。
  2. 课程学习策略:通过逐步增加任务复杂度的训练策略,显著提高了模型在复杂环境中的适应性和性能。
  3. 高效性与安全性:HTRANSRL在保证高到达率的同时,有效减少了碰撞和边界穿越的发生,展示了其在现实应用中的潜力。

其他有价值的内容

本文还探讨了HTRANSRL在实际部署中可能面临的挑战,如传感器延迟和不准确性,并提出了未来研究方向,包括引入联邦学习(Federated Learning)和控制屏障函数(Control Barrier Functions)以进一步提高模型的安全性和鲁棒性。

通过本研究,作者为多无人机协同控制提供了一种高效且安全的解决方案,为未来高级空中交通系统的实现奠定了重要基础。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com