DRTN : Réseau de transformateurs à double relation avec effacement de caractéristiques et apprentissage contrastif pour la classification d'images multi-étiquettes
Nouvelle avancée dans la classification d’images multi-étiquettes : le réseau Transformer à double relation
Contexte académique
La classification d’images multi-étiquettes (Multi-Label Image Classification, MLIC) est un problème fondamental mais très complexe dans le domaine de la vision par ordinateur. Contrairement à la classification d’images à une seule étiquette, l’objectif de la MLIC est d’attribuer simultanément plusieurs étiquettes aux objets présents dans une image. En raison de la présence possible de plusieurs objets dans une image et des relations spatiales et sémantiques complexes entre ces objets, la tâche de MLIC est confrontée à des défis tels que la complexité des scènes, la diversité des échelles des objets et les relations implicites entre eux. Ces dernières années, avec le développement rapide des techniques d’apprentissage profond, en particulier l’introduction des réseaux de neurones convolutifs (CNN) et des Transformers, la tâche de MLIC a connu des progrès significatifs. Cependant, les méthodes Transformer existantes, lors du traitement des cartes de caractéristiques 2D, ont tendance à aplatir ces cartes en séquences 1D, ce qui entraîne une perte d’information spatiale. De plus, les modèles basés sur les mécanismes d’attention se concentrent souvent uniquement sur les régions de caractéristiques les plus saillantes, négligeant d’autres caractéristiques potentiellement utiles, ce qui limite les performances de classification des modèles.
Pour résoudre ces problèmes, une équipe de recherche de l’Université Sun Yat-sen a proposé un nouveau réseau Transformer à double relation (Dual Relation Transformer Network, DRTN), qui améliore considérablement les performances de la classification d’images multi-étiquettes grâce à des techniques d’effacement de caractéristiques et d’apprentissage contrastif. Cette étude vise à résoudre les problèmes liés à la perte d’information spatiale et aux limitations des mécanismes d’attention dans les méthodes Transformer, offrant ainsi une solution plus complète pour la tâche de MLIC.
Source de l’article
Cet article a été co-écrit par Wei Zhou, Kang Lin, Zhijie Zheng, Dihu Chen, Tao Su et Haifeng Hu, tous issus de l’École de technologie électronique et de l’information de l’Université Sun Yat-sen. L’article a été publié en 2025 dans la revue Neural Networks sous le titre « DRTN: Dual Relation Transformer Network with Feature Erasure and Contrastive Learning for Multi-Label Image Classification ».
Processus et détails de la recherche
1. Aperçu du processus de recherche
Le cœur de la conception du réseau DRTN réside dans l’amélioration des performances de la classification d’images multi-étiquettes grâce au module d’amélioration de la double relation (Dual Relation Enhancement, DRE), au module d’amélioration et d’effacement des caractéristiques (Feature Enhancement and Erasure, FEE) et au module d’apprentissage contrastif (Contrastive Learning, CL). Le processus détaillé est le suivant :
- Extraction des caractéristiques : Utilisation d’un CNN pré-entraîné (comme ResNet-101) pour extraire les cartes de caractéristiques de l’image d’entrée.
- Module d’amélioration de la double relation (DRE) : Fusion des caractéristiques de grille et des caractéristiques de pseudo-régions pour capturer les corrélations entre les différents objets dans l’image.
- Module d’amélioration et d’effacement des caractéristiques (FEE) : Découverte des régions de caractéristiques saillantes grâce à un mécanisme d’attention et exploration d’autres caractéristiques potentiellement utiles via une stratégie d’effacement au niveau des régions.
- Module d’apprentissage contrastif (CL) : Rapprochement des caractéristiques saillantes et des caractéristiques potentielles grâce à un mécanisme d’apprentissage contrastif, tout en éloignant ces caractéristiques des caractéristiques de fond.
- Entraînement et évaluation du modèle : Entraînement et évaluation sur plusieurs ensembles de données publics (comme MS-COCO 2014, Pascal VOC 2007 et NUS-WIDE) pour valider l’efficacité du modèle.
2. Processus détaillé et conception expérimentale
a) Extraction des caractéristiques
L’étude utilise d’abord un réseau ResNet-101 pré-entraîné pour extraire les cartes de caractéristiques de l’image d’entrée. Plus précisément, l’image d’entrée est redimensionnée à une résolution de 448×448, et après passage dans le CNN, la carte de caractéristiques générée est représentée par F∈R^H×W×C, où H et W sont respectivement la hauteur et la largeur de la carte de caractéristiques, et C est le nombre de canaux.
b) Module d’amélioration de la double relation (DRE)
Le module DRE vise à capturer les corrélations entre les différents objets dans l’image grâce à la fusion des caractéristiques de grille et des caractéristiques de pseudo-régions. Les étapes spécifiques sont les suivantes :
- Encodeur de relation de grille : La carte de caractéristiques F est compressée en dimension de canal via une couche de convolution 1×1, puis aplatie en une séquence de caractéristiques de grille V_g. Ensuite, un encodeur Transformer est utilisé pour capturer les corrélations entre les caractéristiques de grille.
- Encodeur de relation de pseudo-régions : Pour compenser la perte d’information spatiale des caractéristiques de grille, l’étude propose un schéma d’agrégation de grille qui regroupe les caractéristiques de grille en N caractéristiques de pseudo-régions V_r. Ces caractéristiques de pseudo-régions captent les corrélations entre les différentes régions via un encodeur Transformer.
- Fusion des caractéristiques : Les caractéristiques de grille et les caractéristiques de pseudo-régions sont fusionnées pour générer des caractéristiques plus représentatives F_x, qui servent d’entrée aux modules suivants.
c) Module d’amélioration et d’effacement des caractéristiques (FEE)
Le module FEE vise à découvrir les régions de caractéristiques saillantes grâce à un mécanisme d’attention et à explorer d’autres caractéristiques potentiellement utiles via une stratégie d’effacement au niveau des régions. Les étapes spécifiques sont les suivantes :
- Branche d’amélioration des caractéristiques : Un mécanisme d’attention génère une carte d’attention spatiale M_att, et une fonction sigmoïde est utilisée pour générer une carte d’importance M_imp. Cette carte d’importance est multipliée par les caractéristiques originales pour obtenir les caractéristiques renforcées F_e.
- Branche d’effacement des caractéristiques : Un ratio d’effacement prédéfini θ_e est utilisé pour générer un masque d’effacement au niveau des régions M_e_r, qui est ensuite multiplié par les caractéristiques originales pour obtenir les caractéristiques potentielles effacées F_s.
d) Module d’apprentissage contrastif (CL)
Le module CL vise à rapprocher les caractéristiques saillantes et les caractéristiques potentielles grâce à un mécanisme d’apprentissage contrastif, tout en éloignant ces caractéristiques des caractéristiques de fond. Les étapes spécifiques sont les suivantes :
- Séparation du premier plan et de l’arrière-plan : Un seuillage est utilisé pour séparer les caractéristiques saillantes et les caractéristiques potentielles en premier plan et arrière-plan.
- Calcul de la perte contrastive : Une perte contrastive L_cl est conçue pour rapprocher les vecteurs d’encodage du premier plan des caractéristiques saillantes et potentielles, tout en les éloignant des vecteurs d’encodage de l’arrière-plan.
e) Entraînement et évaluation du modèle
L’étude a mené des expériences sur trois ensembles de données publics : MS-COCO 2014, Pascal VOC 2007 et NUS-WIDE. Pendant l’entraînement, un optimiseur SGD est utilisé avec un taux d’apprentissage initial de 10^-3, qui est réduit d’un facteur 10 aux époques 25 et 35. Les résultats expérimentaux montrent que le modèle DRTN surpasse les méthodes MLIC existantes sur plusieurs métriques d’évaluation.
3. Résultats principaux et conclusions
a) Résultats expérimentaux
Sur l’ensemble de données MS-COCO 2014, le modèle DRTN a atteint un mAP (mean Average Precision) de 84,7 % à une résolution de 448×448, surpassant les méthodes CNN, RNN et GCN existantes. Lorsque la résolution est augmentée à 576×576, le mAP du modèle DRTN atteint 86,2 %, obtenant les meilleures performances parmi toutes les méthodes comparées.
Sur l’ensemble de données Pascal VOC 2007, le modèle DRTN a atteint un mAP de 94,7 % à une résolution de 448×448, surpassant de manière significative les méthodes CNN et GCN existantes. Lorsque la résolution est augmentée à 576×576, le mAP du modèle DRTN atteint 94,9 %.
Sur l’ensemble de données NUS-WIDE, le modèle DRTN a atteint un mAP de 63,4 %, surpassant les méthodes GCN et Transformer existantes.
b) Conclusions et implications
Le modèle DRTN améliore considérablement les performances de la classification d’images multi-étiquettes grâce au module d’amélioration de la double relation, au module d’amélioration et d’effacement des caractéristiques et au module d’apprentissage contrastif. Les principales contributions de cette étude incluent :
- La proposition d’un module d’amélioration de la double relation, qui capture les corrélations entre les différents objets dans l’image grâce à la fusion des caractéristiques de grille et des caractéristiques de pseudo-régions.
- La conception d’un module d’amélioration et d’effacement des caractéristiques, qui découvre les régions de caractéristiques saillantes grâce à un mécanisme d’attention et explore d’autres caractéristiques potentiellement utiles via une stratégie d’effacement au niveau des régions.
- L’introduction d’un module d’apprentissage contrastif, qui rapproche les caractéristiques saillantes et les caractéristiques potentielles tout en les éloignant des caractéristiques de fond.
Cette étude propose une nouvelle solution pour la tâche de classification d’images multi-étiquettes, offrant une valeur scientifique et applicative significative.
4. Points forts de la recherche
- Module d’amélioration de la double relation innovant : La fusion des caractéristiques de grille et des caractéristiques de pseudo-régions permet de capturer efficacement les corrélations entre les différents objets dans l’image.
- Stratégie d’effacement des caractéristiques innovante : La stratégie d’effacement au niveau des régions permet d’explorer d’autres caractéristiques potentiellement utiles, améliorant ainsi les performances de classification du modèle.
- Application de l’apprentissage contrastif : Le mécanisme d’apprentissage contrastif rapproche les caractéristiques saillantes et les caractéristiques potentielles tout en les éloignant des caractéristiques de fond, renforçant ainsi la capacité de discrimination du modèle.
5. Autres informations utiles
L’étude a également exploré l’impact de différents hyperparamètres (comme le nombre de clusters N et le ratio d’effacement θ_e) sur les performances du modèle, et a validé l’efficacité de chaque module via des expériences d’ablation. Les résultats expérimentaux montrent que le modèle DRTN améliore de manière significative les performances sur plusieurs ensembles de données publics, démontrant ainsi sa supériorité dans la tâche de classification d’images multi-étiquettes.
Conclusion
Le modèle DRTN améliore considérablement les performances de la classification d’images multi-étiquettes grâce au module d’amélioration de la double relation, au module d’amélioration et d’effacement des caractéristiques et au module d’apprentissage contrastif. Cette étude propose non seulement une nouvelle solution pour la tâche de MLIC, mais offre également des perspectives utiles pour d’autres tâches dans le domaine de la vision par ordinateur.