基于特征擦除和对比学习的双关系Transformer网络在多标签图像分类中的应用

2025-03-14 Fri
多标签图像分类的新突破——双关系Transformer网络学术背景多标签图像分类（Multi-Label Image Classification, MLIC）是计算机视觉领域中的一个基础但极具挑战性的问题。与单标签图像分类不同，MLIC的目标是为一张图像中的多个对象同时分配标签。由于图像中可能包含多个对象，且这些对象之间存在复杂的空间和语义关系，MLIC任务面临着场景复杂、对象尺度多样以及对象间隐含关联等挑战。近年来，随着深度学习技术的快速发展，尤其是卷积神经网络（CNN）和Transformer的引入，MLIC任务取得了显著进展。然而，现有的Transformer方法在处理2D特征图时，通常会将特征图展平为1D序列，这导致空间信息的丢失。此外，现有的注意力机制模型往往只关注显著的特征区域，而忽略了其他潜在有用的特征，从而限制了模型的分类性能。
为了解决这些问题，来自Sun Yat-sen University的研究团队提出了一种新颖的双关系Transformer网络（Dual Relation Transformer Network, DRTN），通过特征擦除和对比学习技术，显著提升了多标签图像分类的性能。该研究旨在解决Transformer方法在空间信息丢失和注意力机制局限性方面的问题，从而为MLIC任务提供更全面的解决方案。
论文来源这篇论文由Wei Zhou, Kang Lin, Zhijie Zheng, Dihu Chen, Tao Su和Haifeng Hu共同撰写，他们均来自Sun Yat-sen University的电子与信息技术学院。论文于2025年发表在Neural Networks期刊上，题为《DRTN: Dual Relation Transformer Network with Feature Erasure and Contrastive Learning for Multi-Label Image Classification》。
研究流程与细节1. 研究流程概述DRTN网络的设计核心在于通过双关系增强模块（Dual Relation Enhancement, DRE）、特征增强与擦除模块（Feature Enhancement and Erasure, FEE）以及对比学习模块（Contrastive Learning, CL）来提升多标签图像分类的性能。具体流程如下：
特征提取：使用预训练的CNN（如ResNet-101）提取输入图像的特征图。
双关系增强模块（DRE）：通过网格特征和伪区域特征的融合，捕捉图像中不同对象之间的相关性。
特征增强与擦除模块（FEE）：通过注意力机制发现显著特征区域，并通过区域级擦除策略挖掘其他潜在有用的特征。
对比学习模块（CL）：通过对比学习机制，使显著特征和潜在特征的前景更加接近，同时远离背景特征。
模型训练与评估：在多个公开数据集（如MS-COCO 2014、Pascal VOC 2007和NUS-WIDE）上进行训练和评估，验证模型的有效性。
2. 详细流程与实验设计a) 特征提取研究首先使用预训练的ResNet-101网络提取输入图像的特征图。具体来说，输入图像被调整为448×448的分辨率，经过CNN后，生成的特征图表示为F∈R^H×W×C，其中H和W分别为特征图的高度和宽度，C为通道数。
b) 双关系增强模块（DRE）DRE模块旨在通过网格特征和伪区域特征的融合，捕捉图像中不同对象之间的相关性。具体步骤如下：
网格关系编码器：将特征图F通过1×1卷积层压缩通道维度，然后将其展平为网格特征序列V_g。接着，通过Transformer编码器捕捉网格特征之间的相关性。
伪区域关系编码器：为了弥补网格特征在空间信息上的丢失，研究提出了一种网格聚合方案，将网格特征聚类为N个伪区域特征V_r。这些伪区域特征通过Transformer编码器捕捉不同区域之间的相关性。
特征融合：将网格特征和伪区域特征进行融合，生成更具代表性的特征F_x，作为后续模块的输入。
c) 特征增强与擦除模块（FEE）FEE模块旨在通过注意力机制发现显著特征区域，并通过区域级擦除策略挖掘其他潜在有用的特征。具体步骤如下：
特征增强分支：通过注意力头生成空间注意力图M_att，并利用sigmoid函数生成重要性图M_imp。将重要性图与原始特征相乘，得到显著增强特征F_e。
特征擦除分支：通过预定义的擦除比例θ_e生成区域级擦除掩码M_e_r，并将其与原始特征相乘，得到擦除后的潜在特征F_s。
d) 对比学习模块（CL）CL模块旨在通过对比学习机制，使显著特征和潜在特征的前景更加接近，同时远离背景特征。具体步骤如下：
前景与背景分离：通过阈值将显著特征和潜在特征的前景与背景分离。
对比损失计算：设计对比损失L_cl，使显著特征和潜在特征的前景嵌入向量更加接近，同时远离背景嵌入向量。
e) 模型训练与评估研究在MS-COCO 2014、Pascal VOC 2007和NUS-WIDE三个公开数据集上进行了实验。训练过程中，使用SGD优化器，初始学习率为10^-3，并在第25和35个epoch时将学习率降低10倍。实验结果表明，DRTN模型在多个评价指标上均优于现有的MLIC方法。
3. 主要结果与结论a) 实验结果在MS-COCO 2014数据集上，DRTN模型在448×448分辨率下取得了84.7%的mAP（mean Average Precision），优于现有的CNN、RNN和GCN方法。当分辨率提升至576×576时，DRTN模型的mAP进一步提升至86.2%，在所有对比方法中表现最优。
在Pascal VOC 2007数据集上，DRTN模型在448×448分辨率下取得了94.7%的mAP，显著优于现有的CNN和GCN方法。当分辨率提升至576×576时，DRTN模型的mAP进一步提升至94.9%。
在NUS-WIDE数据集上，DRTN模型取得了63.4%的mAP，优于现有的GCN和Transformer方法。
b) 结论与意义DRTN模型通过双关系增强模块、特征增强与擦除模块以及对比学习模块，显著提升了多标签图像分类的性能。研究的主要贡献包括：
提出了双关系增强模块，通过网格特征和伪区域特征的融合，捕捉图像中不同对象之间的相关性。
设计了特征增强与擦除模块，通过注意力机制发现显著特征区域，并通过区域级擦除策略挖掘其他潜在有用的特征。
引入了对比学习模块，使显著特征和潜在特征的前景更加接近，同时远离背景特征。
该研究为多标签图像分类任务提供了一种新的解决方案，具有重要的科学价值和应用价值。
4. 研究亮点新颖的双关系增强模块：通过网格特征和伪区域特征的融合，有效捕捉了图像中不同对象之间的相关性。
创新的特征擦除策略：通过区域级擦除策略，挖掘了其他潜在有用的特征，提升了模型的分类性能。
对比学习机制的应用：通过对比学习机制，使显著特征和潜在特征的前景更加接近，同时远离背景特征，进一步增强了模型的判别能力。
5. 其他有价值的信息研究还探讨了不同超参数（如聚类数量N和擦除比例θ_e）对模型性能的影响，并通过消融实验验证了各模块的有效性。实验结果表明，DRTN模型在多个公开数据集上均取得了显著的性能提升，证明了其在多标签图像分类任务中的优越性。
总结DRTN模型通过双关系增强模块、特征增强与擦除模块以及对比学习模块，显著提升了多标签图像分类的性能。该研究不仅为MLIC任务提供了一种新的解决方案，还为计算机视觉领域的其他任务提供了有益的借鉴。