动态注意视觉-语言Transformer网络在人员重新识别中的应用

动态注意力视觉语言Transformer网络用于行人再识别的研究报告

近年来,基于多模态的行人再识别(Person Re-Identification, ReID)技术在计算机视觉领域受到越来越多的关注。行人再识别旨在通过跨摄像机视角识别特定行人,是安全与监控应用(如寻找失踪人员、追踪犯罪分子)的关键技术。然而,多模态ReID技术融合视觉和文本信息时面临重大挑战,包括特征融合的偏差以及领域差异对模型性能的影响。

本文由Guifang Zhang、Shijun Tan、Zhe Ji和Yuming Fang等人撰写,来自江西财经大学计算与人工智能学院及纽卡斯尔大学纽卡斯尔商学院,发表于2024年《International Journal of Computer Vision》。研究提出了一种动态注意力视觉语言变压器网络(Dynamic Attention Vision-Language Transformer, DAVLT),专门用于解决多模态ReID中的上述问题。


背景与研究动机

行人再识别技术长期以来面临多个技术难题,包括图像模糊、低分辨率、背景干扰以及遮挡等问题。这些问题会导致识别性能下降,尤其是在跨摄像头视角和复杂环境下。此外,早期基于卷积神经网络(CNN)的ReID方法在局部特征提取上存在局限,而近年来基于变压器(Transformer)的方法因其卓越的细粒度特征捕获能力成为主流。然而,随着大规模预训练多模态模型(如CLIP、ViLT等)的兴起,研究人员开始尝试通过图像和文本的多模态信息融合来提高行人再识别性能。然而,简单的特征融合方法可能引入无效信息,导致模型性能受限。

为解决上述问题,本文提出了动态注意力视觉语言变压器网络(DAVLT),其核心目标是在视觉和文本特征的动态融合中减少无效信息的影响,同时通过适配器模块缓解预训练数据集与ReID任务数据集之间的领域差异。


研究方法

网络结构

DAVLT网络由以下模块组成: 1. 图像编码器:使用预训练的视觉变压器(Vision Transformer, ViT)提取图像的判别性特征。 2. 文本编码器:利用ViLT模型生成文本特征。文本模板如“a [mask] wears a pair of [mask] pants…”用于确保文本描述的连贯性和一致性。 3. 适配器模块(Adapter Module):用以缓解预训练数据与下游任务数据之间的分布差异。 4. 图像-文本动态注意力模块(ITDA Module):通过动态分配权重,突出有效信息、抑制无效信息,从而优化特征融合。

图像-文本动态注意力模块(ITDA Module)

ITDA模块通过注意力权重控制机制,分别计算文本到图像(Text-to-Image)和图像到文本(Image-to-Text)的注意力权重。该模块根据图像特征或文本特征的相关性动态调整融合权重,确保特征融合的有效性。例如,当描述为“a woman wears red clothes”,模型能够准确定位图像中的“红色衣服”区域,并为该部分特征赋予更高权重。

损失函数

网络采用交叉熵损失(ID Loss)和三元组损失(Triplet Loss)的组合优化模型,确保模型在嵌入空间中对同类样本距离更近,对不同类样本距离更远。


实验结果

研究在三个基准数据集Market1501、MSMT17和DukeMTMC上进行了广泛实验,验证了所提方法的有效性。

性能对比

DAVLT网络在Market1501数据集上取得了91.1%的mAP和96.3%的Rank-1准确率,优于TransReID、CLIP-ReID等多种现有方法。在MSMT17数据集上,DAVLT达到了71.7%的mAP和87.6%的Rank-1准确率,表现同样优异。

消融实验

为评估各模块对性能的贡献,研究进行了多项消融实验: 1. ITDA模块的有效性:加入ITDA模块后,Market1501数据集的mAP提升了2.2%,Rank-1准确率提升了1.1%。 2. 适配器模块的贡献:在Market1501数据集中,适配器模块的引入使mAP提高了0.4%,Rank-1准确率提升了0.3%。 3. 特征组合方式:实验表明,特征拼接(Concatenation)方法比特征加和(Addition)或加权加和(Weighted Addition)效果更佳。


研究意义与局限性

本文的研究创新体现在以下几个方面: 1. 提出了ITDA模块,用于动态融合图像和文本特征,减少无效信息干扰。 2. 通过适配器模块有效缓解了领域差异对模型性能的影响。 3. 在多个基准数据集上实现了先进的性能,证明了多模态特征融合在行人再识别任务中的可行性。

然而,研究也存在一定局限性。低分辨率图像或外观高度相似的行人仍可能导致误识别。未来工作可考虑通过增强文本描述质量、引入更复杂的特征提取方法以及探索多尺度特征表示来进一步提升性能。


结论

本文提出的动态注意力视觉语言变压器网络(DAVLT)通过动态特征融合和领域适配,在行人再识别任务中取得了显著性能提升。研究成果不仅拓展了多模态信息融合的可能性,也为未来相关领域研究提供了重要启示。