Apprentissage à instances multiples basé sur des informations déterministes négatives pour la détection et la segmentation d'objets faiblement supervisées
Negative Deterministic Information-Based Multiple Instance Learning for Weakly Supervised Object Detection and Segmentation
Introduction au contexte
Au cours de la dernière décennie, des progrès significatifs ont été réalisés dans le domaine de la vision par ordinateur, en particulier dans la détection d’objets (Object Detection) et la segmentation sémantique (Semantic Segmentation). Cependant, la plupart des algorithmes et modèles conçus dépendent fortement de données d’annotation précises, ce qui, dans les applications réelles, consomme beaucoup de main-d’œuvre et de temps. L’apprentissage supervisé faible (Weakly Supervised Learning, WSL) aborde ce problème en n’exigeant que des données d’annotation grossières (par exemple, des annotations au niveau de l’image). Dans ce contexte, la détection d’objets en supervision faible (Weakly Supervised Object Detection, WSOD) et la segmentation sémantique en supervision faible (Weakly Supervised Semantic Segmentation, WSSS) ont attiré beaucoup d’attention en raison de leur utilisation efficace des étiquettes.
L’apprentissage par instance multiple (Multiple Instance Learning, MIL) offre une solution viable pour ces deux tâches en traitant chaque image comme un sac contenant une série d’instances (zones d’objets ou pixels) et en identifiant les instances de premier plan qui contribuent à la classification du sac. Cependant, les paradigmes MIL traditionnels présentent souvent des problèmes tels que la domination des instances discriminatives et les instances manquées. Cet article observe que les instances négatives (Negative Instances) contiennent souvent des informations déterministes précieuses (Negative Deterministic Information, NDI) qui sont cruciales pour résoudre ces problèmes.
Source de l’article
L’article a été rédigé par Guanchun Wang, Xiangrong Zhang (membre senior de l’IEEE), Zelin Peng, Tianyang Zhang, Xu Tang (membre senior de l’IEEE), Huiyu Zhou et Licheng Jiao (fellow de l’IEEE), issus de l’Université d’électronique et de technologie de Xian, de l’Institut de recherche en intelligence artificielle de l’Université de Shanghai Jiao Tong et de l’École des sciences informatiques et mathématiques de l’Université de Leicester. L’article a été publié dans l’IEEE Transactions on Neural Networks and Learning Systems.
Processus de recherche
Aperçu du processus de recherche
Le processus de recherche comprend principalement deux conceptions centrales : la collecte de NDI (NDI Collection) et l’apprentissage par contraste négatif (Negative Contrastive Learning, NCL). Tout d’abord, l’article propose un module de collecte de NDI en ligne, une base de caractéristiques dynamiques utilisée pour identifier et extraire le NDI dans les instances négatives, puis utilise ces informations dans le mécanisme NCL pour localiser et pénaliser les zones discriminatives suractivées, résolvant ainsi les problèmes de domination des instances discriminatives et d’instances manquées, améliorant la précision et l’intégrité de la localisation au niveau des objets et des pixels. De plus, une stratégie de sélection d’instances guidée par NDI (NDI-Guided Instance Selection, NGIS) est conçue pour améliorer encore les performances du système.
Objectifs de l’étude et étapes expérimentales
Les objectifs de l’étude incluent plusieurs ensembles de données de référence publics tels que Pascal VOC 2007, Pascal VOC 2012 et MS COCO. À chaque étape, les objectifs de l’étude ont été traités comme suit :
Module de collecte de NDI en ligne : Utilise une base de caractéristiques dynamiques pour extraire le NDI des instances négatives, en surveillant en ligne une série d’instances, en identifiant les instances négatives qui n’appartiennent pas à la catégorie d’image actuelle sur la base des annotations au niveau de l’image, et en fixant un seuil (τ) pour filtrer les instances sans valeur. Une stratégie de mise à jour du moment basée sur le niveau de confiance (Confidence-Driven Momentum Update, CMU) est adoptée pour mettre à jour la base de caractéristiques afin d’extraire du NDI de haute qualité à partir des instances collectées.
Mécanisme d’apprentissage par contraste négatif : Sur la base du NDI collecté, un mécanisme NCL est proposé, utilisant le NDI comme modèle pour apparier les instances discriminatives sur-ajustées et les éloigner dans l’espace de représentation, guidant ainsi le réseau pour échapper au problème de domination des instances discriminatives.
Stratégie de sélection d’instances guidée par NDI : Introduit la stratégie NGIS après la branche MIL pour atténuer davantage le problème des instances manquées, en utilisant les NDI comme modèle pour filtrer les instances positives potentielles, améliorant ainsi les performances de détection.
Expérimentations et analyses
Des expériences ont été menées sur les trois ensembles de données Pascal VOC 2007, Pascal VOC 2012 et MS COCO, montrant une amélioration notable de la méthode proposée, notamment : - Sur l’ensemble de données Pascal VOC 2007, la méthode NDI-MIL a atteint 56.8% de mAP et 71.0% de CorLoc, surpassant significativement les autres méthodes. - Sur l’ensemble de données Pascal VOC 2012, NDI-MIL a atteint 53.9% de mAP. - Sur l’ensemble de données MS COCO, NDI-MIL a également montré des performances remarquables sous des normes de haute précision, avec des améliorations de 0.7% et 1.9% pour Map[.5:.05:.95] et Map respectivement.
Analyse détaillée
- Module de collecte de NDI : L’article décrit en détail le processus d’extraction des NDI et la stratégie CMU, comment optimiser la sélection des instances négatives à l’aide d’une base de caractéristiques dynamiques et réduire les instances de bruit causées par un entraînement insuffisant, améliorant ainsi la qualité des NDI.
- Mécanisme d’apprentissage par contraste négatif : Exprime par des formules précises comment utiliser les NDI pour pénaliser les instances discriminatives, atténuant ainsi les problèmes de domination des instances discriminatives et d’instances manquées.
- Résultats expérimentaux : Compare en détail à l’aide de tableaux de données les performances de NDI-MIL par rapport à d’autres méthodes populaires, montrant son excellence sans réentraîner des modèles supervisés complets.
Conclusion et valeur
NDI-MIL propose un nouveau paradigme MIL basé sur des informations déterministes négatives, résolvant efficacement les problèmes courants de domination des instances discriminatives et des instances manquées dans les tâches de supervision faible, tout en améliorant les performances de détection d’objets et de segmentation sémantique. Cela a une importance pratique significative pour les applications de vision par ordinateur, notamment dans les scénarios où l’utilisation efficace des données d’étiquetage est nécessaire.
Points forts de l’étude
Les points forts de cette étude comprennent la découverte et l’utilisation d’informations déterministes précieuses dans les instances négatives, la conception de nouveaux modules de collecte de NDI et de mécanismes NCL, la démonstration expérimentale de l’efficacité de la méthode, et la proposition d’une stratégie NGIS pour améliorer encore les performances du système.