跨模态-术语-FmRead学术前沿

基于生成模型的无人机行为意图识别：从行为到自然语言的跨模态研究背景及研究目标近年来，无人机（Unmanned Aerial Vehicle，UAV）技术取得飞速发展，广泛应用于民用与军事领域，如搜索救援、农业精准作业和通信中继等。然而，随着无人机群规模的扩大以及智能化水平的提升，空中指挥与控制领域对于更高水平的智能需求日益迫切。在复杂的对抗环境中，提高无人机的“态势感知”（situation awareness）水平已然成为关键问题，尤其是如何有效识别无人机的操作意图。这一识别过程有助于揭示对手操作意图与战术欺骗间的关系，优化信息在指挥层级中的流动，并为决策提供指导。传统基于分类任务的意图识别方法受到数据库分布失衡和鲁棒性差等问题的限制，导致分类精度难以应用于现实复杂场景。本研究提出了...

动态注意力视觉语言Transformer网络用于行人再识别的研究报告近年来，基于多模态的行人再识别（Person Re-Identification, ReID）技术在计算机视觉领域受到越来越多的关注。行人再识别旨在通过跨摄像机视角识别特定行人，是安全与监控应用（如寻找失踪人员、追踪犯罪分子）的关键技术。然而，多模态ReID技术融合视觉和文本信息时面临重大挑战，包括特征融合的偏差以及领域差异对模型性能的影响。本文由Guifang Zhang、Shijun Tan、Zhe Ji和Yuming Fang等人撰写，来自江西财经大学计算与人工智能学院及纽卡斯尔大学纽卡斯尔商学院，发表于2024年《International Journal of Computer Vision》。研究提出了一种动...

从行为到自然语言：无人机意图识别的生成方法

动态注意视觉-语言Transformer网络在人员重新识别中的应用