基于特征擦除和对比学习的双关系Transformer网络在多标签图像分类中的应用

多标签图像分类的新突破——双关系Transformer网络

学术背景

多标签图像分类(Multi-Label Image Classification, MLIC)是计算机视觉领域中的一个基础但极具挑战性的问题。与单标签图像分类不同,MLIC的目标是为一张图像中的多个对象同时分配标签。由于图像中可能包含多个对象,且这些对象之间存在复杂的空间和语义关系,MLIC任务面临着场景复杂、对象尺度多样以及对象间隐含关联等挑战。近年来,随着深度学习技术的快速发展,尤其是卷积神经网络(CNN)和Transformer的引入,MLIC任务取得了显著进展。然而,现有的Transformer方法在处理2D特征图时,通常会将特征图展平为1D序列,这导致空间信息的丢失。此外,现有的注意力机制模型往往只关注显著的特征区域,而忽略了其他潜在有用的特征,从而限制了模型的分类性能。

为了解决这些问题,来自Sun Yat-sen University的研究团队提出了一种新颖的双关系Transformer网络(Dual Relation Transformer Network, DRTN),通过特征擦除和对比学习技术,显著提升了多标签图像分类的性能。该研究旨在解决Transformer方法在空间信息丢失和注意力机制局限性方面的问题,从而为MLIC任务提供更全面的解决方案。

论文来源

这篇论文由Wei Zhou, Kang Lin, Zhijie Zheng, Dihu Chen, Tao SuHaifeng Hu共同撰写,他们均来自Sun Yat-sen University的电子与信息技术学院。论文于2025年发表在Neural Networks期刊上,题为《DRTN: Dual Relation Transformer Network with Feature Erasure and Contrastive Learning for Multi-Label Image Classification》。

研究流程与细节

1. 研究流程概述

DRTN网络的设计核心在于通过双关系增强模块(Dual Relation Enhancement, DRE)、特征增强与擦除模块(Feature Enhancement and Erasure, FEE)以及对比学习模块(Contrastive Learning, CL)来提升多标签图像分类的性能。具体流程如下:

  1. 特征提取:使用预训练的CNN(如ResNet-101)提取输入图像的特征图。
  2. 双关系增强模块(DRE):通过网格特征和伪区域特征的融合,捕捉图像中不同对象之间的相关性。
  3. 特征增强与擦除模块(FEE):通过注意力机制发现显著特征区域,并通过区域级擦除策略挖掘其他潜在有用的特征。
  4. 对比学习模块(CL):通过对比学习机制,使显著特征和潜在特征的前景更加接近,同时远离背景特征。
  5. 模型训练与评估:在多个公开数据集(如MS-COCO 2014、Pascal VOC 2007和NUS-WIDE)上进行训练和评估,验证模型的有效性。

2. 详细流程与实验设计

a) 特征提取

研究首先使用预训练的ResNet-101网络提取输入图像的特征图。具体来说,输入图像被调整为448×448的分辨率,经过CNN后,生成的特征图表示为F∈R^H×W×C,其中H和W分别为特征图的高度和宽度,C为通道数。

b) 双关系增强模块(DRE)

DRE模块旨在通过网格特征和伪区域特征的融合,捕捉图像中不同对象之间的相关性。具体步骤如下:

  • 网格关系编码器:将特征图F通过1×1卷积层压缩通道维度,然后将其展平为网格特征序列V_g。接着,通过Transformer编码器捕捉网格特征之间的相关性。
  • 伪区域关系编码器:为了弥补网格特征在空间信息上的丢失,研究提出了一种网格聚合方案,将网格特征聚类为N个伪区域特征V_r。这些伪区域特征通过Transformer编码器捕捉不同区域之间的相关性。
  • 特征融合:将网格特征和伪区域特征进行融合,生成更具代表性的特征F_x,作为后续模块的输入。

c) 特征增强与擦除模块(FEE)

FEE模块旨在通过注意力机制发现显著特征区域,并通过区域级擦除策略挖掘其他潜在有用的特征。具体步骤如下:

  • 特征增强分支:通过注意力头生成空间注意力图M_att,并利用sigmoid函数生成重要性图M_imp。将重要性图与原始特征相乘,得到显著增强特征F_e。
  • 特征擦除分支:通过预定义的擦除比例θ_e生成区域级擦除掩码M_e_r,并将其与原始特征相乘,得到擦除后的潜在特征F_s。

d) 对比学习模块(CL)

CL模块旨在通过对比学习机制,使显著特征和潜在特征的前景更加接近,同时远离背景特征。具体步骤如下:

  • 前景与背景分离:通过阈值将显著特征和潜在特征的前景与背景分离。
  • 对比损失计算:设计对比损失L_cl,使显著特征和潜在特征的前景嵌入向量更加接近,同时远离背景嵌入向量。

e) 模型训练与评估

研究在MS-COCO 2014、Pascal VOC 2007和NUS-WIDE三个公开数据集上进行了实验。训练过程中,使用SGD优化器,初始学习率为10^-3,并在第25和35个epoch时将学习率降低10倍。实验结果表明,DRTN模型在多个评价指标上均优于现有的MLIC方法。

3. 主要结果与结论

a) 实验结果

在MS-COCO 2014数据集上,DRTN模型在448×448分辨率下取得了84.7%的mAP(mean Average Precision),优于现有的CNN、RNN和GCN方法。当分辨率提升至576×576时,DRTN模型的mAP进一步提升至86.2%,在所有对比方法中表现最优。

在Pascal VOC 2007数据集上,DRTN模型在448×448分辨率下取得了94.7%的mAP,显著优于现有的CNN和GCN方法。当分辨率提升至576×576时,DRTN模型的mAP进一步提升至94.9%。

在NUS-WIDE数据集上,DRTN模型取得了63.4%的mAP,优于现有的GCN和Transformer方法。

b) 结论与意义

DRTN模型通过双关系增强模块、特征增强与擦除模块以及对比学习模块,显著提升了多标签图像分类的性能。研究的主要贡献包括:

  • 提出了双关系增强模块,通过网格特征和伪区域特征的融合,捕捉图像中不同对象之间的相关性。
  • 设计了特征增强与擦除模块,通过注意力机制发现显著特征区域,并通过区域级擦除策略挖掘其他潜在有用的特征。
  • 引入了对比学习模块,使显著特征和潜在特征的前景更加接近,同时远离背景特征。

该研究为多标签图像分类任务提供了一种新的解决方案,具有重要的科学价值和应用价值。

4. 研究亮点

  • 新颖的双关系增强模块:通过网格特征和伪区域特征的融合,有效捕捉了图像中不同对象之间的相关性。
  • 创新的特征擦除策略:通过区域级擦除策略,挖掘了其他潜在有用的特征,提升了模型的分类性能。
  • 对比学习机制的应用:通过对比学习机制,使显著特征和潜在特征的前景更加接近,同时远离背景特征,进一步增强了模型的判别能力。

5. 其他有价值的信息

研究还探讨了不同超参数(如聚类数量N和擦除比例θ_e)对模型性能的影响,并通过消融实验验证了各模块的有效性。实验结果表明,DRTN模型在多个公开数据集上均取得了显著的性能提升,证明了其在多标签图像分类任务中的优越性。

总结

DRTN模型通过双关系增强模块、特征增强与擦除模块以及对比学习模块,显著提升了多标签图像分类的性能。该研究不仅为MLIC任务提供了一种新的解决方案,还为计算机视觉领域的其他任务提供了有益的借鉴。