Amélioration de la segmentation sémantique en apprentissage avec peu d'exemples grâce à un réseau d'amélioration des caractéristiques des bords orienté par des priorités

Une nouvelle méthode pour améliorer la segmentation sémantique à petit échantillon - Réseau d’amélioration des caractéristiques des bords basé sur des informations a priori

Dans le domaine de l’intelligence artificielle, la segmentation sémantique (semantic segmentation) est une technologie essentielle en vision par ordinateur, visant à attribuer une catégorie sémantique à chaque pixel d’une image. Cependant, les méthodes traditionnelles de segmentation sémantique reposent sur de grandes quantités de données annotées pour s’entraîner, ce qui les limite dans les contextes où les données annotées sont rares. Par exemple, dans l’analyse d’images médicales et la conduite autonome, il est souvent nécessaire de segmenter des catégories avec un petit nombre d’échantillons tout en obtenant des résultats précis. Dans ce contexte, la segmentation sémantique à petit échantillon (Few-Shot Semantic Segmentation, FSS en abrégé) a suscité un intérêt croissant chez les chercheurs, cherchant à obtenir une segmentation sémantique de haute qualité avec peu d’échantillons annotés.

Réseau d’amélioration des caractéristiques des bords basé sur des informations a priori Cependant, comparativement aux modèles de segmentation sémantique générales, la segmentation sémantique à petit échantillon rencontre toujours des difficultés dans la prédiction précise des bordures des objets. Cela s’explique par le fait que lorsque les échantillons sont très limités, les caractéristiques extraites par le modèle à partir de l’image de requête (query) sont souvent incapables de capturer suffisamment de détails pour se concentrer efficacement sur les bordures de la cible. Pour résoudre ce problème, cet article propose un nouveau réseau d’amélioration des caractéristiques des bords basé sur des informations a priori (Prior-Driven Edge Feature Enhancement Network, PDEFE en abrégé). Ce réseau utilise les informations a priori sur les bordures des objets pour améliorer les caractéristiques des requêtes, ce qui conduit à une segmentation plus précise des cibles.

Cet article a été rédigé par des chercheurs de l’Université Jiaotong de Pékin (Beijing Jiaotong University), à savoir Jingkai Ma, Shuang Bai et Wenchao Pan, et publié dans le numéro de janvier 2025 de l’IEEE Transactions on Artificial Intelligence. Cet article a attiré une grande attention dans la communauté scientifique, proposant une nouvelle méthode novatrice pour résoudre le problème des bordures dans la segmentation sémantique à petit échantillon, tout en offrant des idées et des résultats innovants.


Contexte et problème de recherche

La technologie de segmentation sémantique a fait d’énormes progrès ces dernières années grâce au développement rapide de l’apprentissage profond, notamment avec des modèles classiques tels que les Fully Convolutional Networks (FCNs), DeepLab et UNet. Cependant, ces méthodes dépendent fortement de grandes quantités de données annotées pour l’entraînement, ce qui limite considérablement leur applicabilité dans des contextes où les données sont rares. Pour relever ce défi, la segmentation sémantique à petit échantillon (FSS) est devenue une solution prometteuse.

Les méthodes de segmentation sémantique à petit échantillon actuelles suivent principalement le paradigme de l’apprentissage par méta-modèle (meta-learning) et peuvent être classées en deux grandes catégories : (1) Les méthodes basées sur des prototypes, qui génèrent des prototypes de catégories à partir des caractéristiques des images supports et les associent aux caractéristiques des images de requête ; (2) Les méthodes basées sur la corrélation spatiale, qui explorent les relations spatiales entre les caractéristiques des images supports et des images de requête. Cependant, qu’il s’agisse des approches basées sur les prototypes ou sur la corrélation spatiale, leur capacité à extraire les détails des bordures cibles reste limitée dans les scénarios à faible échantillonnage, entraînant une précision insuffisante dans la segmentation des bordures.

Pour résoudre ces lacunes, certains travaux existants ont introduit l’utilisation des informations sur les bordures pour améliorer la précision de la segmentation. Par exemple, Mceenet utilise un réseau d’assistance basé sur les bordures pour améliorer les caractéristiques des requêtes. Toutefois, cette méthode extrait directement toutes les bordures des images de requête, incluant les bordures du fond, ce qui peut interférer avec les résultats de segmentation. Par rapport à cela, la méthode PDEFE proposée dans cet article réussit non seulement à supprimer efficacement les interférences causées par les bordures du fond, mais aussi à fournir des informations plus précises liées aux bordures des objets cibles.


Méthodologie et flux de travail

1. Aperçu du cadre général

Le modèle PDEFE comprend deux modules principaux : - Module d’amélioration des caractéristiques des bords (Edge Feature Enhancement Module, EFEM) : Ce module utilise les informations sur les bordures des objets pour améliorer les caractéristiques des bordures des images de requête. - Générateur de masque de bordure avec information a priori (Edge Prior Mask Generator, EPMG) : Ce module génère des masques basés sur les informations de gradient de l’image, guidant ainsi le modèle à se concentrer davantage sur les détails des bordures des cibles.

Ce flux de travail est intégré dans un cadre classique d’apprentissage par méta-modèle (tel que PFENet). Les caractéristiques de mi-niveau et de haut-niveau des images support et requête sont respectivement extraites à l’aide d’un réseau d’encodage (backbone, ex. ResNet), combinées aux modules EFEM et EPMG, puis utilisées par un décodeur qui produit les résultats de segmentation avec haute précision.


2. Module EFEM

L’objectif central d’EFEM est d’améliorer la représentation des détails des bordures en utilisant les informations associées à ces dernières. Les étapes principales du module incluent :

  1. Extraction des informations sur les bordures : Utilisation d’un modèle préentraîné de détection de bordures globales Holistically-Nested Edge Detection (HED) pour extraire un masque binaire des bordures des images de requête.
  2. Filtrage des bordures de premier plan : Comme l’extraction de bordures peut inclure des interférences de fond, EFEM génère un résultat de segmentation préliminaire grâce à une tête de classification partagée avec le décodeur, permettant d’éliminer les bordures inutiles du fond.
  3. Fusion multi-échelle : Utilisation d’un module d’extraction multi-échelle, Atrous Spatial Pyramid Pooling (ASPP), pour extraire des informations riches sur les bordures des objets depuis différentes échelles des caractéristiques de requête.
  4. Amélioration des bordures : Intégration des informations extraites sur les bordures dans les caractéristiques des images de requête en utilisant des opérations de convolution, générant ainsi des caractéristiques de requête enrichies.

Ce module permet de remédier au problème de collecte insuffisante des informations de bordure dans les scénarios à faible échantillonnage.


3. Générateur de masque de bordure a priori (EPMG)

En raison de l’insuffisance de détails dans les caractéristiques de haut-niveau, EPMG génère un masque de bordures a priori basé sur les informations de gradient de l’image, offrant ainsi des détails supplémentaires pour guider la segmentation. Le fonctionnement du module est le suivant :

  1. Extraction des informations de gradient : Utilisation de l’opérateur de Sobel pour extraire les gradients en x et en y des images de support annotées ainsi que des images de requête.
  2. Calcul de la similarité des bordures: Un calculateur de similarité des bordures (Edge Similarity Calculator, ESC) est introduit pour comparer les gradients pixel à pixel et produire un masque indiquant les régions pertinentes en termes de bordures de la cible.
  3. Normalisation du masque : Le masque généré est normalisé pour former un masque final a priori enrichissant les caractéristiques détaillées des images de requête.

Ce module innove par son exploitation des gradients pour extraire efficacement les bordures pertinentes des objets cibles tout en atténuant les interférences du fond.


Résultats expérimentaux

1. Jeux de données et métriques d’évaluation

Deux jeux de données standard de segmentation à petit échantillon, Pascal-5i et COCO-20i, sont utilisés pour les évaluations. Les métriques incluent : - mIoU (Mean Intersection Over Union) ; - FB-IoU (Foreground-Background IoU).

2. Résultats expérimentaux

Jeu de données Pascal-5i

Dans des scénarios avec 1 ou 5 échantillons, PDEFE améliore significativement la segmentation par rapport à des méthodes de pointe comme Mceenet et CFENet. Par exemple, avec ResNet-50 comme backbone, PDEFE atteint une mIoU de 68,9 %, dépassant Mceenet de 5,4 %.

Jeu de données COCO-20i

Comparé à des modèles classiques (comme DBMNet et RIFENet), PDEFE démontre une nette supériorité. Dans les paramètres avec 5 échantillons de support, le nouveau modèle atteint une mIoU maximale de 55,9 %, démontrant une excellente capacité de généralisation.


3. Études d’ablation et validation des modules

Pour examiner les contributions spécifiques de l’EFEM et de l’EPMG, des études d’ablation sont menées. Les résultats montrent que : - L’ajout de l’EFEM améliore considérablement la précision de la segmentation des bordures des cibles ; - L’ajout de l’EPMG enrichit davantage l’expression des caractéristiques des bordures dans les images de requête.


Portée et signification

Cette innovation méthodologique présente non seulement une amélioration notable par rapport aux approches existantes, mais offre également un potentiel d’applications pratiques dans divers domaines. En particulier : 1. Valeur scientifique : Fournir une feuille de route claire pour l’extraction et l’utilisation des bordures dans les tâches de segmentation à petit échantillon. 2. Valeur pratique : Applicable dans des champs tels que l’analyse d’images médicales et la conduite autonome, répondant aux besoins critiques d’une segmentation précise des bordures.


Conclusion

PDEFE propose une solution révolutionnaire pour les défis posés par la segmentation sémantique à petit échantillon, en renforçant les détails des bordures avec ses modules EFEM et EPMG. Cette contribution encourage non seulement l’avancement des technologies de segmentation à faible échantillonnage mais inspire aussi d’autres domaines tels que la détection d’objets saillants et la détection de bordures. À l’avenir, tirer parti de modèles préentraînés plus puissants (comme SAM) pour améliorer les capacités de détection des bordures, ou explorer des mécanismes d’optimisation adaptative pour la sélection des bordures essentielles, constituera des orientations clés.