Algorithme de segmentation adaptative de domaine non supervisé basé sur un alignement de catégorie à deux niveaux

La segmentation sémantique vise à prédire des étiquettes de classe pour chaque pixel d’une image (Liu et al., 2021; Wang et al., 2021), et est largement utilisée pour la compréhension de scènes, l’analyse des images médicales, la conduite autonome, les systèmes d’information géographique et la réalité augmentée (Strudel et al., 2021; Sun et al., 2023). Bien que le développement des réseaux neuronaux profonds ait considérablement amélioré les performances des tâches de segmentation (Chen et al., 2014; Guan et al., 2021; Zhao et al., 2017), ces progrès nécessitent une grande quantité de données d’annotations au niveau des pixels pour l’entraînement du modèle, ce qui est coûteux à obtenir dans des scénarios réels (Jiang et al., 2022; Liang et al., 2023). De plus, lorsque les données de test sont différentes des données d’entraînement, les performances de la plupart des méthodes de segmentation diminuent généralement (Huang et al., 2022). Pour résoudre ces problèmes, les chercheurs ont proposé des méthodes d’adaptation de domaine non supervisée (Unsupervised Domain Adaptation, UDA) afin d’améliorer la capacité de généralisation des modèles (Xu et al., 2021).

Source de l’article

Le titre de cet article est « Unsupervised Domain Adaptive Segmentation Algorithm Based on Two-Level Category Alignment », rédigé par Dong Wenyong et son équipe de la Faculté d’Informatique de l’Université de Wuhan, incluant Liang Zhixue, Wang Liping, Tian Gang et Long Qianhui. Cet article a été publié dans le journal « Neural Networks » en 2024 sous le numéro 106399.

图1

Contexte de l’étude et problème

Actuellement, la plupart des méthodes de segmentation avec adaptation de domaine non supervisée se concentrent sur les caractéristiques locales au niveau des pixels, mais négligent les indices des informations de classe. Cela limite le réseau de segmentation à n’apprendre que des caractéristiques globales invariantes au domaine et à ignorer les caractéristiques invariantes au domaine à un niveau plus fin, ce qui entraîne une dégradation des performances de segmentation. Pour affronter ce problème, cet article propose un algorithme d’adaptation de domaine non supervisé basé sur l’alignement des catégories à deux niveaux (UDA$_{CA}^+$) pour les tâches de segmentation sémantique.

Processus et méthodes de recherche

Architecture globale

L’architecture de l’UDA$_{CA}^+$ illustrée dans la figure 1 comprend principalement le module ClassMix, le réseau étudiant et le réseau enseignant, ainsi que des modules d’alignement de catégorie au niveau de l’image et au niveau des pixels. Le réseau comprend trois branches : la branche du domaine cible ($B_t$), la branche du domaine source ($B_s$), et la branche du domaine mixte ($B_m$).

Objets de recherche et étapes de traitement

  1. Jeux de données du domaine source et du domaine cible :

    • Jeu de données du domaine source : images de scènes diurnes d’un environnement synthétique.
    • Jeu de données du domaine cible : images des scènes correspondantes dans un environnement réel, incluant les jeux de données GTA et Cityscapes.
    • Traitement : Toutes les données ont été traitées par redimensionnement, découpe aléatoire, retournement horizontal aléatoire et normalisation des moyennes RGB.
  2. Entraînement du modèle du domaine source :

    • Entrée : image du domaine source $x_s$.
    • Sortie : prédiction $ys$ obtenue par le réseau de segmentation étudiant $g{\theta}$.
    • Perte : Contraindre le réseau étudiant en utilisant la perte d’entropie croisée standard.
  3. Entraînement du modèle du domaine cible :

    • Entrée : image du domaine cible $x_t$.
    • Sortie : prédiction $yt$ obtenue par le réseau enseignant $h{\phi}$, avec génération d’étiquettes pseudo.
    • Étiquettes pseudo : déterminer les classes par la valeur de probabilité maximale et introduire une méthode de calcul de la confiance pour atténuer les problèmes de transfert et de sur-ajustement.

Stratégie d’alignement des catégories à deux niveaux

  1. Alignement des catégories au niveau de l’image (IDA) : basé sur les cartes d’activation de classe (Class Activation Map, CAM), concentré sur les informations profondes de la catégorie comme la position, la distribution et le centre des caractéristiques.
  2. Alignement des catégories au niveau des pixels (PDA) : basé sur les étiquettes pseudo, se concentrant sur les informations superficielles de la catégorie comme la texture, la couleur et le contexte local.

Stratégie d’apprentissage adversariales

  • Apprentissage adversariel dans l’espace des caractéristiques : dans l’espace des caractéristiques, utiliser l’apprentissage adversariel pour aligner les centres des caractéristiques des catégories entre le domaine source et le domaine cible, équilibrant ainsi la distribution des caractéristiques de différentes catégories.
  • Apprentissage adversariel dans l’espace des sorties : dans l’espace des sorties, aligner encore plus les cartes de distribution spatiale des catégories, réalisant ainsi l’alignement des informations globales et locales.

Stratégie de domaine mixte

  1. Stratégie de mélange des images : utiliser la méthode ClassMix pour générer des images mixtes $x_m$ et leurs étiquettes $y_m$, et optimiser conjointement le modèle de segmentation UDA par apprentissage adversariel et auto-entrainement.
  2. Stratégie d’alignement combiné : la branche du domaine mixte utilise les modules IDA et PDA pour réaliser l’apprentissage adversariel dans l’espace des caractéristiques et des sorties, optimisant ainsi le modèle de segmentation UDA.

Résultats et analyse

Résultats expérimentaux quantitatifs

Les résultats expérimentaux sur les deux jeux de données GTA→Cityscapes et Synthia→Cityscapes montrent que l’UDA${CA}^+$ améliore significativement les performances de segmentation, surpassant les méthodes SOTA précédentes. Concrètement : - Pour la tâche GTA→Cityscapes, l’UDA${CA}^+$ a atteint un mIoU de 69.7%, soit une amélioration de 21.4% par rapport au modèle de base Segformer. - Pour la tâche Synthia→Cityscapes, l’UDA$_{CA}^+$ a amélioré les performances de 20.3% pour les 16 catégories (mIoU16) et de 21.1% pour les 13 catégories (mIoU13).

Résultats expérimentaux qualitatifs

Comme illustré dans la figure 6, l’UDA$_{CA}^+$ affiche de meilleures performances de prédiction dans divers contenus de scène par rapport aux méthodes SOTA telles que Daformer, notamment avec des améliorations significatives dans la prédiction de l’herbe, des arbres, des trottoirs, des bâtiments et des murs.

Expérimentations d’ablation

Des expérimentations d’ablation détaillées ont également été menées pour étudier l’impact des modules d’alignement des catégories à deux niveaux et des modules d’apprentissage adversarial. Les résultats ont montré que : - La combinaison des modules d’alignement des catégories au niveau de l’image et au niveau des pixels donne de meilleures performances par rapport à l’intégration d’un seul module. - L’apprentissage adversarial conjoint dans l’espace des caractéristiques et dans l’espace des sorties améliore encore la capacité du réseau de segmentation à capturer l’invariance entre les domaines.

Conclusion de l’étude

L’algorithme de segmentation sémantique UDA proposé dans cet article aborde efficacement le problème du décalage de domaine entre le domaine source et le domaine cible grâce à une stratégie d’alignement des catégories à deux niveaux, aussi bien dans l’espace des caractéristiques que dans l’espace des sorties. Les résultats expérimentaux ont validé l’efficacité de la stratégie proposée, atteignant des performances SOTA sur deux tâches d’adaptation de domaine synthétique à réel. Les recherches futures pourront optimiser davantage la génération des cartes d’activation de classe pour améliorer les performances du modèle.