基于特征擦除和对比学习的双关系Transformer网络在多标签图像分类中的应用
多标签图像分类的新突破——双关系Transformer网络 学术背景 多标签图像分类(Multi-Label Image Classification, MLIC)是计算机视觉领域中的一个基础但极具挑战性的问题。与单标签图像分类不同,MLIC的目标是为一张图像中的多个对象同时分配标签。由于图像中可能包含多个对象,且这些对象之间存在复杂的空间和语义关系,MLIC任务面临着场景复杂、对象尺度多样以及对象间隐含关联等挑战。近年来,随着深度学习技术的快速发展,尤其是卷积神经网络(CNN)和Transformer的引入,MLIC任务取得了显著进展。然而,现有的Transformer方法在处理2D特征图时,通常会将特征图展平为1D序列,这导致空间信息的丢失。此外,现有的注意力机制模型往往只关注显著的特征...