Segmentation sémantique faiblement supervisée via l'enseignement autodual alterné

Réalisation de la segmentation sémantique d’images sous supervision partielle grâce à un enseignement auto-ajusté alternatif à double enseignant

Modèle mentionné dans l’article pour WSSS

Introduction

Avec le développement continu du domaine de la vision par ordinateur, la segmentation sémantique est devenue un domaine de recherche important et actif. Les méthodes traditionnelles de segmentation sémantique dépendent des étiquettes de pixels marquées manuellement, mais obtenir ces annotations précises nécessite souvent beaucoup de temps et de travail. Pour résoudre ce problème, la segmentation sémantique avec supervision partielle (Weakly Supervised Semantic Segmentation, WSSS) a été proposée ces dernières années. L’objectif de la WSSS est de réaliser une segmentation sémantique efficace en minimisant les annotations manuelles nécessaires, en utilisant des informations étiquetées de manière moins précise (comme des étiquettes d’images, des boîtes englobantes ou des griffonnages).

Cet article étudie la méthode de segmentation sémantique avec supervision partielle basée sur les étiquettes d’images, qui est la tâche la plus difficile parmi toutes les catégories de WSSS. Les méthodes actuelles dépendent principalement des modèles de classification d’images pour générer des masques de segmentation pseudo (Pseudo Segmentation Masks, PSMs). Cependant, les caractéristiques de ces modèles sont principalement utilisées pour les tâches de classification, ce qui entraîne des réponses inégales dans les zones d’objets des masques pseudo et un manque de détails aux frontières. Pour cela, cet article propose un cadre d’apprentissage d’enseignement auto-ajusté alternatif (Alternate Self-Dual Teaching, ASDT) basé sur une architecture de réseau à double enseignant et un seul étudiant, afin de générer des PSM de haute qualité.

Source de l’article

Cet article, intitulé « Weakly Supervised Semantic Segmentation via Alternate Self-Dual Teaching », a été rédigé par Dingwen Zhang, Hao Li, Wenyuan Zeng, Chaowei Fang, Lechao Cheng, Ming-Ming Cheng et Junwei Han, et a été publié en août 2021 dans la revue IEEE Transactions on Image Processing. Cet article a été soutenu par des projets de recherche et développement clés de la province de Guangdong et par le Fonds national des sciences naturelles de Chine.

Processus de recherche

Aperçu du processus de recherche

Le processus de recherche comprend les étapes suivantes :

  1. Extraction des caractéristiques : Utiliser d’abord un réseau central pour extraire les caractéristiques de l’image.
  2. Apprentissage à double enseignant : Utiliser le réseau enseignant de classification et le réseau enseignant de segmentation pour générer respectivement les caractéristiques des parties discriminantes des objets et les caractéristiques complètes des régions d’objets.
  3. Apprentissage par distillation alternée : Transmettre les connaissances générées par les modèles à double enseignant au réseau étudiant via un algorithme de distillation alternée pour guider la génération des masques de segmentation pseudo.
  4. Post-traitement : Utiliser un champ aléatoire conditionnel (Conditional Random Field, CRF) en post-traitement pour améliorer la qualité des résultats de segmentation.

Extraction des caractéristiques

L’extraction des caractéristiques commence par l’utilisation d’un réseau entièrement convolutif (comme ResNet) pour extraire les caractéristiques de l’image d’entrée. Les cartes de caractéristiques obtenues seront utilisées dans le processus d’apprentissage à double enseignant ultérieur.

Apprentissage à double enseignant

  • Réseau enseignant de classification (Class-Teacher Branch) : Cette partie est responsable de la génération des caractéristiques des parties discriminantes des objets (Discriminative Object Part). En utilisant une couche de poolage global moyen (Global Average Pooling, GAP) et des couches entièrement connectées pour générer des prédictions au niveau de l’image, puis en combinant la carte de caractéristiques et les poids de prédiction pour générer des cartes d’activation de classe (Class Activation Maps, CAMs), et ainsi générer une localisation sémantique de confiance (Trustful Semantic Localization) pour la distillation ultérieure.

    • Fonction de perte : perte d’entropie croisée (Cross-Entropy Loss, Lce).
  • Réseau enseignant de segmentation (Seg-Teacher Branch) : Cette partie est responsable de la génération des caractéristiques complètes des régions d’objets (Full Object Region), en utilisant des couches de convolution à trous et une opération softmax pour construire la sortie. Ce réseau est guidé par les caractéristiques des parties discriminantes des objets auto-générées.

    • Fonction de perte : fonction de perte basée sur l’énergie (Energy-Based Loss).

Enseignement auto-ajusté alternatif

À ce stade, la recherche propose un mécanisme de distillation alternée pour transmettre les connaissances générées par les modèles à double enseignant au réseau étudiant de manière alternée. Plus précisément, un signal de modulation de largeur d’impulsion (Pulse Width Modulation, PWM) est utilisé pour contrôler de quel modèle enseignant la distillation des connaissances est effectuée, afin d’éviter que le réseau étudiant ne tombe dans un optimum local. La perte de distillation alternée (Lad) comprend la perte de distillation de l’enseignant de classification vers l’étudiant et la perte de distillation de l’enseignant de segmentation vers l’étudiant.

Grâce au mécanisme de distillation alternée, le réseau étudiant peut obtenir plus stablement des masques de segmentation pseudo fiables, réduisant l’impact des erreurs des modèles enseignants sur le processus d’apprentissage du modèle étudiant.

Expériences et résultats

La recherche a vérifié l’efficacité du cadre ASDT sur les ensembles de données PASCAL VOC 2012 et COCO-Stuff 10k, et les résultats expérimentaux montrent que le cadre ASDT peut obtenir les meilleures performances de segmentation actuelles.

  • PASCAL VOC 2012 : Des performances remarquables ont été obtenues sur le jeu de validation et le jeu de test, atteignant respectivement 68.5% et 68.4% de mIoU (Mean Intersection over Union).
  • COCO-Stuff 10k : Le cadre ASDT a également montré des performances exceptionnelles sur cet ensemble de données, améliorant de 0.6% mIoU par rapport aux méthodes existantes les plus avancées.

Expériences d’ablation

Les expériences d’ablation ont analysé l’effet de différentes stratégies de distillation auto-ajustée et ont vérifié les avantages du mécanisme de distillation alternée. Voir le tableau ci-dessous pour plus de détails :

Stratégie de distillation Seg-Teacher Student PSM
Enseignant unique (classification) - 62.6 -
Enseignant unique (segmentation) 62.3 30.4 48.5
Combinaison directe (max) 61.4 40.1 53.2
Combinaison directe (moyenne) 62.3 40.0 53.6
Double enseignant alterné 63.8 63.8 64.0

Les résultats montrent que le mécanisme de distillation alternée est significativement supérieur à la méthode de combinaison directe des réseaux enseignants dans la formation de la branche de réseau étudiant.

Conclusion et valeur applicative

Le cadre ASDT proposé dans cet article introduit des caractéristiques complètes des régions d’objets, combinant les caractéristiques des parties discriminantes des objets pour former une architecture innovante à double enseignant et un étudiant. La recherche réalise une distillation des connaissances efficace sous une supervision partielle en utilisant un mécanisme de distillation alternée, améliorant significativement les performances du modèle. Cette méthode a montré d’excellentes performances sur les ensembles de données PASCAL VOC et COCO-Stuff, démontrant son potentiel d’application large. À l’avenir, l’équipe de recherche prévoit d’étendre le mécanisme ASDT à des tâches d’apprentissage avec supervision partielle plus larges, telles que la détection d’objets avec supervision partielle et la segmentation d’instances.

Les contributions de cet article incluent : 1. Réexaminer les facteurs clés pour générer des masques de segmentation pseudo de haute qualité, révélant l’importance des parties discriminantes des objets et des régions complètes des objets dans la segmentation sémantique avec supervision partielle. 2. Proposer un mécanisme innovant de distillation alternée, permettant au modèle étudiant d’éviter les optimums locaux causés par les erreurs des modèles enseignants en distillant deux types de connaissances de manière alternée sous une supervision partielle. 3. Les résultats expérimentaux montrent que la méthode proposée a atteint les meilleures performances de segmentation actuelles sur les ensembles de données PASCAL VOC 2012 et COCO-Stuff 10k.