Combattre le bruit des étiquettes avec un modèle de substitution général pour la sélection des échantillons

Contexte académique et problématique

Avec le développement rapide des réseaux de neurones profonds (Deep Neural Networks, DNNs), les systèmes d’intelligence visuelle ont réalisé des progrès significatifs dans des tâches telles que la classification d’images, la détection d’objets et la compréhension vidéo. Cependant, ces avancées dépendent de la collecte de données annotées de haute qualité, un processus souvent long et coûteux. Pour résoudre ce problème, les chercheurs ont commencé à utiliser des données massives provenant du web pour l’entraînement, mais ces données sont souvent accompagnées de bruits d’étiquettes (label noise), ce qui peut affecter les performances des réseaux de neurones profonds. La présence de bruits d’étiquettes entraîne une divergence entre les distributions des données d’entraînement et de test, ce qui affecte la capacité de généralisation du modèle sur des données de test propres.

Pour résoudre ce problème, la sélection d’échantillons (sample selection) est devenue une méthode efficace. L’idée centrale est de séparer les échantillons propres de tous les échantillons d’entraînement en fonction d’un certain critère. Les méthodes précédentes reposaient principalement sur le “critère de petite perte” (small loss criterion), c’est-à-dire que les échantillons avec une petite perte sont considérés comme propres. Cependant, cette stratégie dépend de la dynamique d’apprentissage de chaque instance de données, et certains échantillons bruyants peuvent encore être mémorisés en raison de modèles d’apprentissage corrompus fréquents. Par conséquent, les chercheurs ont proposé un modèle de substitution (surrogate model) sans entraînement pour éviter l’effet de mémorisation.

Source de l’article et informations sur les auteurs

Cet article a été co-écrit par Chao Liang, Linchao Zhu, Humphrey Shi et Yi Yang, respectivement du laboratoire Reler de l’Université du Zhejiang, de Shi Labs @ UIUC & Oregon et de Picsart AI Research (PAIR). L’article a été accepté pour publication dans l’International Journal of Computer Vision le 1er décembre 2024.

Contenu et méthodologie de la recherche

Processus de recherche

Cet article propose une méthode de sélection d’échantillons basée sur le modèle de substitution vision-langage CLIP (Contrastive Language–Image Pretraining) pour filtrer automatiquement les échantillons bruyants. CLIP, grâce à sa capacité d’alignement texte-image, peut attribuer un score de confiance à chaque échantillon, aidant ainsi à identifier les échantillons propres. De plus, les auteurs conçoivent une perte de marge adaptative (margin adaptive loss) pour atténuer le biais de sélection introduit par CLIP, renforçant ainsi la robustesse du modèle face aux étiquettes bruyantes.

1. Sélection d’échantillons

Tout d’abord, les chercheurs utilisent le modèle CLIP pré-entraîné pour noter chaque échantillon. Étant donné une image x, CLIP extrait les caractéristiques de l’image v via un encodeur d’image et les caractéristiques de texte {t1, …, tc} via un encodeur de texte. La prédiction de CLIP pour l’étiquette y = i est calculée comme suit :

[ q(y = i |x) = \frac{\exp(\cos(v, ti)/\tau)}{\sum{j=1}^c \exp(\cos(v, t_j)/\tau)} ]

où cos(·, ·) représente la similarité cosinus et τ est un facteur de température. Les chercheurs proposent deux critères de sélection :

  • Confiance de prédiction : La confiance de prédiction de CLIP pour l’étiquette bruyante est utilisée comme confiance de l’échantillon, et les échantillons avec une confiance supérieure à un seuil ρ sont sélectionnés comme échantillons propres.
  • Cohérence des prompts : En injectant des connaissances spécifiques au domaine, différents modèles de prompts sont conçus, et la différence de prédiction entre deux prompts est calculée. Les échantillons avec une petite différence sont sélectionnés comme échantillons propres.

2. Perte de marge adaptative

Bien que CLIP puisse aider à sélectionner des échantillons propres, il peut également introduire un biais de sélection. Pour résoudre ce problème, les chercheurs conçoivent une perte de marge adaptative équilibrée et sensible au bruit (noise-aware balanced margin adaptive loss). Cette perte ajuste la probabilité de sortie du modèle en introduisant une matrice de transition (transition matrix) et un a priori de fréquence de classe (class frequency prior), supprimant ainsi la surconfiance envers certaines classes et atténuant le problème de déséquilibre de classe causé par la sélection d’échantillons.

Résultats expérimentaux

L’article valide l’efficacité de la méthode proposée sur plusieurs ensembles de données réels et synthétiques avec bruit. Les résultats expérimentaux montrent que la méthode proposée améliore significativement les performances sur les ensembles de données WebVision, Clothing1M, CIFAR-10N, CIFAR-100N, etc. En particulier, dans des conditions de bruit élevé (par exemple, 90 %), la méthode proposée peut encore identifier efficacement des échantillons propres, surpassant de manière significative les méthodes de référence existantes.

1. Ensembles de données réels

Sur l’ensemble de données WebVision, la méthode proposée atteint une précision Top-1 et Top-5 de 79,08 % et 91,96 %, respectivement, surpassant de manière significative la méthode de référence Dividemix. Sur l’ensemble de données Clothing1M, la méthode proposée montre également des performances impressionnantes, validant son efficacité dans le traitement des étiquettes bruyantes du monde réel.

2. Ensembles de données synthétiques

Sur les ensembles de données CIFAR-10 et CIFAR-100, la méthode proposée montre des performances exceptionnelles sous différents taux de bruit et types de bruit. En particulier, dans des conditions de bruit élevé (90 %), la précision Top-1 de la méthode proposée atteint 89,2 % et 45,7 %, respectivement, surpassant de manière significative les méthodes de référence existantes.

Conclusion et signification

Cet article propose une méthode de sélection d’échantillons basée sur CLIP, capable d’identifier efficacement les échantillons bruyants mémorisés par les réseaux de neurones profonds. En introduisant une perte de marge adaptative, la méthode proposée atténue davantage le biais de sélection introduit par CLIP, renforçant la robustesse du modèle face aux étiquettes bruyantes. Les résultats expérimentaux montrent que la méthode proposée améliore de manière significative les performances sur plusieurs ensembles de données bruyants, démontrant son potentiel dans le traitement des problèmes d’étiquettes bruyantes.

Points forts de la recherche

  1. Innovation : Cet article est le premier à utiliser le modèle de substitution vision-langage CLIP pour la sélection d’échantillons, évitant le biais d’apprentissage introduit par le critère de petite perte traditionnel.
  2. Robustesse : En concevant une perte de marge adaptative, la méthode proposée atténue efficacement le biais de sélection introduit par CLIP, renforçant la robustesse du modèle face aux étiquettes bruyantes.
  3. Applicabilité étendue : La méthode proposée montre des performances exceptionnelles sur plusieurs ensembles de données réels et synthétiques, démontrant son applicabilité étendue à différentes tâches.

Résumé

En introduisant le modèle CLIP et une perte de marge adaptative, cet article propose une nouvelle méthode de sélection d’échantillons capable de traiter efficacement les problèmes d’étiquettes bruyantes. Cette méthode améliore de manière significative les performances sur plusieurs ensembles de données et fournit de nouvelles idées pour les recherches futures sur les étiquettes bruyantes.