Plonger dans le biais de simplicité pour la reconnaissance d'images à longue queue
Contexte académique et problématique
Ces dernières années, les réseaux de neurones profonds ont réalisé des progrès significatifs dans le domaine de la vision par ordinateur, en particulier dans des tâches telles que la reconnaissance d’images, la détection d’objets et la segmentation sémantique. Cependant, lorsqu’ils sont confrontés à des données à distribution longue queue (long-tailed distribution), même les modèles les plus avancés peinent à performer. La distribution longue queue fait référence à des ensembles de données où le nombre d’échantillons des classes minoritaires (tail classes) est bien inférieur à celui des classes majoritaires (head classes). Ce déséquilibre des données est courant dans de nombreuses applications pratiques, telles que la détection de défaillances de pipelines et la reconnaissance faciale.
Le principal défi de la reconnaissance d’images à longue queue réside dans la gestion efficace du déséquilibre des données, en particulier dans l’amélioration de la capacité de généralisation des classes minoritaires. Les solutions courantes incluent le rééchantillonnage (re-sampling), la pondération des pertes (loss re-weighting) et l’augmentation des données (data augmentation). Cependant, ces méthodes ne parviennent souvent pas à résoudre fondamentalement le problème de la capacité de généralisation réduite des modèles due au manque d’échantillons des classes minoritaires.
Cet article étudie le problème de la reconnaissance d’images à longue queue sous l’angle du biais de simplicité (Simplicity Bias, SB). Le biais de simplicité désigne la tendance des réseaux de neurones profonds, dans les tâches d’apprentissage supervisé, à s’appuyer sur des modèles de prédiction simples tout en ignorant certaines caractéristiques complexes. Ce biais est particulièrement prononcé dans les données à distribution longue queue, où les modèles ont tendance à dépendre davantage de caractéristiques simples pour les classes minoritaires, ce qui entraîne une diminution de la performance de généralisation.
Source de l’article et informations sur les auteurs
Cet article est co-écrit par Xiu-Shen Wei, Xuhao Sun, Yang Shen et Peng Wang, respectivement affiliés à l’Université du Sud-Est, à l’Université des Sciences et Technologies de Nanjing et à l’Université des Sciences et Technologies Électroniques de Chine. L’article a été soumis le 12 mai 2024, accepté le 26 décembre 2024, et publié en 2025 dans la revue International Journal of Computer Vision.
Méthodologie et processus de recherche
Cet article propose une nouvelle méthode d’apprentissage auto-supervisé, appelée Triple-Level Self-Supervised Learning (3LSSL), spécialement conçue pour traiter les données à distribution longue queue. Cette méthode améliore la capacité du modèle à apprendre des caractéristiques complexes à travers trois niveaux d’apprentissage auto-supervisé, atténuant ainsi l’impact du biais de simplicité sur les classes minoritaires.
1. Apprentissage auto-supervisé au niveau global (Holistic-Level SSL)
L’apprentissage auto-supervisé au niveau global est basé sur le cadre classique de l’apprentissage contrastif (comme MoCo). Il génère deux vues (views) d’une image d’entrée via différentes augmentations de données, qui sont ensuite passées à un encodeur et à un encodeur de momentum. En calculant la similarité cosinus entre les vecteurs d’embedding des deux vues, le modèle est incité à apprendre des caractéristiques globales complexes.
2. Apprentissage auto-supervisé au niveau partiel (Partial-Level SSL)
L’apprentissage auto-supervisé au niveau partiel force le modèle à apprendre des informations supplémentaires à partir de régions locales de l’image en utilisant une technique de masquage (masking). Concrètement, une carte d’activation de classe (Class Activation Mapping, CAM) est utilisée pour identifier les régions de l’image qui contribuent le plus à la classification, et ces régions sont masquées pour obliger le modèle à se concentrer sur d’autres régions complexes de l’image.
3. Apprentissage auto-supervisé au niveau d’augmentation (Augmented-Level SSL)
L’apprentissage auto-supervisé au niveau d’augmentation utilise des échantillons pseudo-positifs (pseudo positive samples) dérivés des prédictions du classifieur pour fournir davantage d’échantillons sémantiquement pertinents pour les classes minoritaires, améliorant ainsi la capacité du modèle à apprendre les caractéristiques de ces classes. Plus précisément, une file d’attente d’augmentation (augmented queue) est construite pour stocker les vecteurs d’embedding des échantillons pseudo-positifs, et la similarité entre ces vecteurs et les vecteurs d’embedding des échantillons originaux est calculée.
Résultats expérimentaux et analyse
Des expériences approfondies ont été menées sur cinq ensembles de données de référence pour la reconnaissance d’images à longue queue, notamment CIFAR-10⁄100 à longue queue, ImageNet-LT, Places-LT et iNaturalist 2018. Les résultats montrent que la méthode 3LSSL proposée surpasse de manière significative les méthodes de pointe existantes sur tous les ensembles de données.
1. Résultats sur les ensembles de données CIFAR à longue queue
Sur les ensembles de données CIFAR-10 et CIFAR-100 à longue queue, la méthode 3LSSL a atteint la plus haute précision de classification pour différents ratios de déséquilibre (100, 50, 10). En particulier, sur CIFAR-100 avec un ratio de déséquilibre de 100, 3LSSL a surpassé la meilleure méthode existante (comme BCL) de 2,7 %.
2. Résultats sur l’ensemble de données ImageNet-LT
Sur ImageNet-LT, la méthode 3LSSL a atteint une précision de classification de 59,1 % avec ResNet-50 et de 59,9 % avec ResNeXt-50, surpassant de manière significative les méthodes de pointe existantes.
3. Résultats sur l’ensemble de données Places-LT
Sur Places-LT, la méthode 3LSSL a atteint une précision de classification de 42,0 %, surpassant la meilleure méthode existante (comme PaCo) de 0,8 %.
4. Résultats sur l’ensemble de données iNaturalist 2018
Sur iNaturalist 2018, la méthode 3LSSL a atteint une précision de classification de 75,8 %, surpassant de manière significative les méthodes de pointe existantes (comme SADE et PaCo).
Conclusion et signification
En étudiant l’impact du biais de simplicité dans la reconnaissance d’images à longue queue, cet article propose une nouvelle méthode d’apprentissage auto-supervisé (3LSSL) qui améliore la capacité du modèle à apprendre des caractéristiques complexes à travers trois niveaux d’apprentissage auto-supervisé, atténuant ainsi efficacement l’impact du biais de simplicité sur les classes minoritaires. Les résultats expérimentaux montrent que la méthode 3LSSL améliore de manière significative les performances sur plusieurs ensembles de données de référence pour la reconnaissance d’images à longue queue.
Cette recherche fournit non seulement une nouvelle solution pour la reconnaissance d’images à longue queue, mais ouvre également de nouvelles perspectives pour l’application de l’apprentissage auto-supervisé aux données à longue queue. Les recherches futures pourraient explorer comment appliquer la méthode 3LSSL à d’autres tâches, telles que l’apprentissage à faible nombre d’exemples (few-shot learning).
Points forts de la recherche
- Étude approfondie du biais de simplicité : Cet article est le premier à étudier l’impact du biais de simplicité dans la reconnaissance d’images à longue queue, et valide expérimentalement que les échantillons des classes minoritaires sont plus susceptibles d’être affectés par ce biais.
- Méthode d’apprentissage auto-supervisé à trois niveaux : La méthode 3LSSL proposée atténue efficacement le biais de simplicité en améliorant la capacité du modèle à apprendre des caractéristiques complexes, ce qui améliore significativement la généralisation sur les données à longue queue.
- Validation expérimentale étendue : Des expériences approfondies ont été menées sur cinq ensembles de données de référence pour la reconnaissance d’images à longue queue, validant l’efficacité et la robustesse de la méthode 3LSSL.
Autres informations utiles
Cet article présente également des analyses visuelles démontrant l’efficacité de la méthode 3LSSL dans l’atténuation du biais de simplicité. Grâce à la visualisation des cartes d’activation (activation maps), il est clair que la méthode 3LSSL permet au modèle d’apprendre des caractéristiques d’image plus complètes, en particulier pour les échantillons des classes minoritaires.