基于特征擦除和对比学习的双关系Transformer网络在多标签图像分类中的应用
多标签图像分类的新突破——双关系Transformer网络
学术背景
多标签图像分类(Multi-Label Image Classification, MLIC)是计算机视觉领域中的一个基础但极具挑战性的问题。与单标签图像分类不同,MLIC的目标是为一张图像中的多个对象同时分配标签。由于图像中可能包含多个对象,且这些对象之间存在复杂的空间和语义关系,MLIC任务面临着场景复杂、对象尺度多样以及对象间隐含关联等挑战。近年来,随着深度学习技术的快速发展,尤其是卷积神经网络(CNN)和Transformer的引入,MLIC任务取得了显著进展。然而,现有的Transformer方法在处理2D特征图时,通常会将特征图展平为1D序列,这导致空间信息的丢失。此外,现有的注意力机制模型往往只关注显著的特征区域,而忽略了其他潜在有用的特征,从而限制了模型的分类性能。
为了解决这些问题,来自Sun Yat-sen University的研究团队提出了一种新颖的双关系Transformer网络(Dual Relation Transformer Network, DRTN),通过特征擦除和对比学习技术,显著提升了多标签图像分类的性能。该研究旨在解决Transformer方法在空间信息丢失和注意力机制局限性方面的问题,从而为MLIC任务提供更全面的解决方案。
论文来源
这篇论文由Wei Zhou, Kang Lin, Zhijie Zheng, Dihu Chen, Tao Su和Haifeng Hu共同撰写,他们均来自Sun Yat-sen University的电子与信息技术学院。论文于2025年发表在Neural Networks期刊上,题为《DRTN: Dual Relation Transformer Network with Feature Erasure and Contrastive Learning for Multi-Label Image Classification》。
研究流程与细节
1. 研究流程概述
DRTN网络的设计核心在于通过双关系增强模块(Dual Relation Enhancement, DRE)、特征增强与擦除模块(Feature Enhancement and Erasure, FEE)以及对比学习模块(Contrastive Learning, CL)来提升多标签图像分类的性能。具体流程如下:
- 特征提取:使用预训练的CNN(如ResNet-101)提取输入图像的特征图。
- 双关系增强模块(DRE):通过网格特征和伪区域特征的融合,捕捉图像中不同对象之间的相关性。
- 特征增强与擦除模块(FEE):通过注意力机制发现显著特征区域,并通过区域级擦除策略挖掘其他潜在有用的特征。
- 对比学习模块(CL):通过对比学习机制,使显著特征和潜在特征的前景更加接近,同时远离背景特征。
- 模型训练与评估:在多个公开数据集(如MS-COCO 2014、Pascal VOC 2007和NUS-WIDE)上进行训练和评估,验证模型的有效性。
2. 详细流程与实验设计
a) 特征提取
研究首先使用预训练的ResNet-101网络提取输入图像的特征图。具体来说,输入图像被调整为448×448的分辨率,经过CNN后,生成的特征图表示为F∈R^H×W×C,其中H和W分别为特征图的高度和宽度,C为通道数。
b) 双关系增强模块(DRE)
DRE模块旨在通过网格特征和伪区域特征的融合,捕捉图像中不同对象之间的相关性。具体步骤如下:
- 网格关系编码器:将特征图F通过1×1卷积层压缩通道维度,然后将其展平为网格特征序列V_g。接着,通过Transformer编码器捕捉网格特征之间的相关性。
- 伪区域关系编码器:为了弥补网格特征在空间信息上的丢失,研究提出了一种网格聚合方案,将网格特征聚类为N个伪区域特征V_r。这些伪区域特征通过Transformer编码器捕捉不同区域之间的相关性。
- 特征融合:将网格特征和伪区域特征进行融合,生成更具代表性的特征F_x,作为后续模块的输入。
c) 特征增强与擦除模块(FEE)
FEE模块旨在通过注意力机制发现显著特征区域,并通过区域级擦除策略挖掘其他潜在有用的特征。具体步骤如下:
- 特征增强分支:通过注意力头生成空间注意力图M_att,并利用sigmoid函数生成重要性图M_imp。将重要性图与原始特征相乘,得到显著增强特征F_e。
- 特征擦除分支:通过预定义的擦除比例θ_e生成区域级擦除掩码M_e_r,并将其与原始特征相乘,得到擦除后的潜在特征F_s。
d) 对比学习模块(CL)
CL模块旨在通过对比学习机制,使显著特征和潜在特征的前景更加接近,同时远离背景特征。具体步骤如下:
- 前景与背景分离:通过阈值将显著特征和潜在特征的前景与背景分离。
- 对比损失计算:设计对比损失L_cl,使显著特征和潜在特征的前景嵌入向量更加接近,同时远离背景嵌入向量。
e) 模型训练与评估
研究在MS-COCO 2014、Pascal VOC 2007和NUS-WIDE三个公开数据集上进行了实验。训练过程中,使用SGD优化器,初始学习率为10^-3,并在第25和35个epoch时将学习率降低10倍。实验结果表明,DRTN模型在多个评价指标上均优于现有的MLIC方法。
3. 主要结果与结论
a) 实验结果
在MS-COCO 2014数据集上,DRTN模型在448×448分辨率下取得了84.7%的mAP(mean Average Precision),优于现有的CNN、RNN和GCN方法。当分辨率提升至576×576时,DRTN模型的mAP进一步提升至86.2%,在所有对比方法中表现最优。
在Pascal VOC 2007数据集上,DRTN模型在448×448分辨率下取得了94.7%的mAP,显著优于现有的CNN和GCN方法。当分辨率提升至576×576时,DRTN模型的mAP进一步提升至94.9%。
在NUS-WIDE数据集上,DRTN模型取得了63.4%的mAP,优于现有的GCN和Transformer方法。
b) 结论与意义
DRTN模型通过双关系增强模块、特征增强与擦除模块以及对比学习模块,显著提升了多标签图像分类的性能。研究的主要贡献包括:
- 提出了双关系增强模块,通过网格特征和伪区域特征的融合,捕捉图像中不同对象之间的相关性。
- 设计了特征增强与擦除模块,通过注意力机制发现显著特征区域,并通过区域级擦除策略挖掘其他潜在有用的特征。
- 引入了对比学习模块,使显著特征和潜在特征的前景更加接近,同时远离背景特征。
该研究为多标签图像分类任务提供了一种新的解决方案,具有重要的科学价值和应用价值。
4. 研究亮点
- 新颖的双关系增强模块:通过网格特征和伪区域特征的融合,有效捕捉了图像中不同对象之间的相关性。
- 创新的特征擦除策略:通过区域级擦除策略,挖掘了其他潜在有用的特征,提升了模型的分类性能。
- 对比学习机制的应用:通过对比学习机制,使显著特征和潜在特征的前景更加接近,同时远离背景特征,进一步增强了模型的判别能力。
5. 其他有价值的信息
研究还探讨了不同超参数(如聚类数量N和擦除比例θ_e)对模型性能的影响,并通过消融实验验证了各模块的有效性。实验结果表明,DRTN模型在多个公开数据集上均取得了显著的性能提升,证明了其在多标签图像分类任务中的优越性。
总结
DRTN模型通过双关系增强模块、特征增强与擦除模块以及对比学习模块,显著提升了多标签图像分类的性能。该研究不仅为MLIC任务提供了一种新的解决方案,还为计算机视觉领域的其他任务提供了有益的借鉴。