从行为到自然语言:无人机意图识别的生成方法
基于生成模型的无人机行为意图识别:从行为到自然语言的跨模态研究
背景及研究目标
近年来,无人机(Unmanned Aerial Vehicle,UAV)技术取得飞速发展,广泛应用于民用与军事领域,如搜索救援、农业精准作业和通信中继等。然而,随着无人机群规模的扩大以及智能化水平的提升,空中指挥与控制领域对于更高水平的智能需求日益迫切。在复杂的对抗环境中,提高无人机的“态势感知”(situation awareness)水平已然成为关键问题,尤其是如何有效识别无人机的操作意图。这一识别过程有助于揭示对手操作意图与战术欺骗间的关系,优化信息在指挥层级中的流动,并为决策提供指导。
传统基于分类任务的意图识别方法受到数据库分布失衡和鲁棒性差等问题的限制,导致分类精度难以应用于现实复杂场景。本研究提出了一种基于生成模型的无人机行为意图识别方法,将无人机的长行为序列数据映射至自然语言,从而实现意图识别。这一生成式模型通过压缩行为时间序列数据、利用标准Transformer架构和混合预训练策略,成功地解决了数据库分布不均衡等问题。
论文来源与发布信息
该研究由来自空军工程大学航管与导航学院的Leyan Li、Rennong Yang、Maolong Lv、Ao Wu,以及TUM社会科学与技术学院的Zilong Zhao联合完成,并发表于《IEEE Transactions on Artificial Intelligence》2024年12月刊。论文题目为“From Behavior to Natural Language: Generative Approach for Unmanned Aerial Vehicle Intent Recognition”(DOI: 10.1109/TAI.2024.3376510)。
研究流程与核心方法
研究整体框架
本文采用了一种基于生成模型的跨模态方法,旨在将无人机的长时间序列数据生成自然语言标签进行意图识别。整体框架由如下核心模块构成:
- 行为数据压缩模块:通过时间序列数据降维,显著减少输入时间序列长度以降低Transformer模型的复杂度。
- 标准Transformer架构:利用Transformer编码器提取无人机行为序列特征,处理压缩后的时间序列数据。
- 生成式解码:采用逐词生成的生成模型将行为特征映射到自然语言标签空间,通过与标签库中标签的相似度评估无人机行为意图。
数据压缩技术
由于Transformer对长序列输入的计算复杂度呈二次增长(O(n²)),针对无人机的长行为序列数据,本文采用了两类数据压缩方法。其一是基于统计和神经网络的时间序列块压缩(例如均值采样、卷积层、LSTM层);其二是引入位置编码信息,通过对时序切块后的高效降维,兼顾了信息保真与计算效率。
混合预训练任务
为了提升模型初始化权重的有效性和网络的收敛速度,本文设计了三种针对行为序列数据的预训练任务:
- 时间序列平滑任务:通过随机遮蔽部分时间序列数据并进行恢复,增强模型对数据缺失的平滑能力。
- 对比学习分类任务:提出基于三元损失函数的对比学习方法,提高相似类别行为特征的分辨能力。
- 跨模态匹配任务:采用生成的行为标签与原始自然语言标签计算相似度矩阵,以进一步对齐行为特征和目标标签之间的语义映射。
实验与结果分析
数据集分布与处理
实验过程中,研究构建了一个由战争模拟平台生成并注释的无人机行为数据集。数据集中包含7类时间序列属性(如经纬度、高度、速度等)以及10种战术意图类别(如空战巡逻ACP、压制敌防空SEAD等)。然而,该数据集表现出显著的类别分布不均,某些意图类别占据了主要数据量。这种不均匀分布对传统分类模型的训练和性能产生了显著负面影响。
生成式与分类模型对比
通过实验,生成式模型在意图识别精度上较传统分类模型提升显著。在不引入预训练的情况下,生成模型的识别精度为78.2%,超越传统分类网络如PCLSTM(62.1%)和GRU-FCN(65%)。特别地,在生成过程中使用词嵌矩阵相似度计算匹配标签的方法,效果优于BLEU值匹配。
传统分类模型在处理数据分布失衡时,分类结果显著偏向数据量占比最大的类别。这在混淆矩阵中体现为高置信度地误判至主要类别(如ACP)。而生成式模型通过自然语言映射有效减轻了这种偏向,并展现了较高的鲁棒性。
抗干扰性与时间灵敏度
数据缺失情况下的鲁棒性
数据缺失比例高达50%的情况下,生成式模型仍然能保持约74.9%的准确率。这表明模型在面对强干扰环境或机载设备信息丢失时,依然具备较强的稳定性。实时预测能力
生成式模型仅需使用长度缩减的时间序列即可实现高效的意图识别。例如,对于1分钟的飞行操作数据,模型实现了73.1%的识别精度。这表明即使在任务早期,模型亦能提供足够准确的战术指导信息。
混合预训练效果
引入混合预训练任务的生成式模型相比于随机初始化,可将收敛速度提高22.2%,并将最终准确率绝对提升2.8%。预训练潜在地帮助网络绕过局部最优解,更高效地提取序列特征。
研究价值与意义
本文所提出的基于生成模型的无人机意图识别方法在多个方面对传统方法形成了显著超越:
- 解决分布失衡问题:通过自然语言生成方法有效缓解数据分布不均对模型分类性能的制约。
- 模块化设计:无需修改Transformer结构,可直接适配各类长序列数据,使其在跨模态任务中的应用更具普适性。
- 鲁棒性与泛化能力:模型在干扰环境和数据缺失情况下依旧表现出色,具有显著的时间稳定性和抗干扰能力。
- 重训练成本降低:可通过微调实现标签库变更的适应,而无需彻底重构模型,显著降低训练成本。
本文研究达成了一种新颖且高效的无人机行为意图识别方法,其理论和应用成果为智能无人机指挥/对抗领域的进一步发展奠定了坚实基础。