Asyco : un modèle de co-formation à double tâche asymétrique pour l'apprentissage avec étiquettes partielles
Amélioration de l’apprentissage à étiquettes partielles grâce à un modèle de co-entraînement asymétrique à double tâche dans l’apprentissage profond
Contexte de la recherche
Dans le domaine de l’apprentissage profond, l’apprentissage supervisé est devenu la méthode centrale pour de nombreuses tâches d’intelligence artificielle. Cependant, entraîner des réseaux neuronaux profonds nécessite de grandes quantités de données annotées avec précision, dont la construction est souvent coûteuse en temps et en ressources. L’apprentissage faiblement supervisé (Weakly Supervised Learning) s’est imposé comme une alternative efficace, attirant une attention croissante ces dernières années. Parmi ses problèmes typiques figure l’apprentissage à étiquettes partielles (Partial Label Learning, PLL), qui suppose que chaque instance d’entraînement est annotée avec un ensemble de labels candidats contenant le label véritable et plusieurs labels erronés. En raison de l’ambiguïté des labels dans les ensembles candidats, l’apprentissage à étiquettes partielles constitue un défi majeur.
Dans les recherches sur l’apprentissage à étiquettes partielles, un objectif clé est de lever l’ambiguïté des labels, c’est-à-dire identifier correctement le label véritable pour chaque échantillon. Les méthodes existantes comprennent des algorithmes basés sur la marge maximale, des modèles de graphe, l’algorithme espérance-maximisation, l’apprentissage contrastif et la régularisation de cohérence. Cependant, ces approches, majoritairement basées sur des modèles classiques d’apprentissage automatique, montrent des performances limitées face à des ensembles de données de grande échelle.
Les recherches récentes ont montré que les modèles profonds basés sur l’auto-apprentissage (Self-Training) sont une solution efficace pour l’apprentissage à étiquettes partielles. Ces approches apprennent itérativement les vecteurs de confiance des labels pour optimiser les modèles. Cependant, ces modèles souffrent de problèmes d’accumulation d’erreur, où les erreurs de disambiguïsation peuvent entraîner plus d’erreurs dans les itérations suivantes, dégradant ainsi les performances. Bien que la stratégie de co-entraînement (Co-training) soit largement utilisée pour traiter les problèmes d’apprentissage avec des labels bruités, la majorité des méthodes actuelles adoptent un design symétrique, dans lequel deux réseaux identiques sont formés ensemble. Ce design partage des limitations similaires, rendant difficile la correction mutuelle des erreurs.
Dans ce contexte, des chercheurs de Chongqing University, l’Institut de logiciels de l’Académie chinoise des sciences, Zhejiang University et Nanyang Technological University ont proposé un nouveau modèle appelé ASYCO (Asymmetric Dual-Task Co-Training Model). Ce modèle de co-entraînement asymétrique à double tâche vise à surmonter les limitations des approches symétriques et à améliorer les performances de l’apprentissage à étiquettes partielles.
Origine de l’article
Cette recherche a été publiée sous la forme d’un article scientifique dans le numéro de mai 2025 de Science China Information Sciences (Vol. 68, n° 5) sous le titre “ASYCO: An Asymmetric Dual-Task Co-Training Model for Partial-Label Learning”. Les principaux auteurs de l’article incluent Beibei Li, Yiyuan Zheng, Beihong Jin, Tao Xiang, Haobo Wang et Lei Feng, affiliés à différentes institutions, dont Chongqing University, l’Institut de logiciels de l’Académie chinoise des sciences, Zhejiang University et Nanyang Technological University.
Processus de recherche
a) Conception du modèle et méthodologie
Le modèle ASYCO repose sur un cadre de co-entraînement asymétrique constitué de deux réseaux structurés de manière identique mais formés pour deux tâches différentes : un réseau de disambiguïsation (Disambiguation Network) et un réseau auxiliaire (Auxiliary Network). Le processus de recherche se déroule selon les étapes suivantes :
Construction et entraînement du réseau de disambiguïsation :
- Le principal objectif du réseau de disambiguïsation est de résoudre l’ambiguïté des labels en apprenant un vecteur de confiance indiquant les probabilités de chaque label candidat.
- Le réseau utilise une fonction de perte spécifique au PLL, qui inclut la perte cohérente basée sur le classifieur (Classifier-Consistent Loss, CC Loss) et la perte de risque cohérente (Risk-Consistent Loss, RC Loss).
- L’extension des données d’entraînement via des techniques d’augmentation de données (Data Augmentation) telles qu’Autoaugment et Cutout renforce les capacités de généralisation du modèle.
Construction et entraînement du réseau auxiliaire :
- Le réseau auxiliaire tire parti des pseudo-labels générés par le réseau de disambiguïsation pour produire des labels de similarité par paires (Pairwise Similarity Labels) à faible bruit.
- En générant un label de similarité (0 ou 1) pour chaque paire d’échantillons en fonction de leur appartenance ou non à une même classe, le réseau auxiliaire est optimisé via un apprentissage supervisé pour capturer les relations inter-échantillons.
Module de correction d’erreur :
- Le réseau auxiliaire aide le réseau de disambiguïsation à réduire l’accumulation d’erreurs via deux stratégies : l’information par distillation (Information Distillation) et l’optimisation des vecteurs de confiance.
- Ces stratégies incluent l’utilisation de la divergence KL pour rapprocher les distributions prédites respectives des deux réseaux et un mécanisme de raffinement dynamique des vecteurs de confiance à l’aide du réseau auxiliaire.
Entraînement global et phase d’inférence :
- Au début de l’entraînement, le réseau de disambiguïsation est formé individuellement, puis ses paramètres sont utilisés pour initialiser le réseau auxiliaire afin de démarrer le co-entraînement.
- Lors de la phase d’inférence, un seul des deux réseaux (généralement le réseau de disambiguïsation) est utilisé pour réduire les temps de prédiction.
b) Innovations méthodologiques
ASYCO introduit plusieurs éléments innovants dans le paysage de l’apprentissage à étiquettes partielles : 1. Conversion des labels auxiliaires : La transformation des pseudo-labels en labels de similarité permet de réduire efficacement le taux de bruit dans les données d’entraînement. 2. Stratégies de correction des erreurs : L’association de la distillation d’information et du raffinement des vecteurs de confiance améliore les mécanismes d’interaction et de correction entre les deux réseaux. 3. Augmentation et régularisation des données : L’intégration d’augmentations optimisées et d’un paramètre de température permet un apprentissage plus précis des relations inter-échantillons.
c) Jeu de données et validation expérimentale
Les chercheurs ont testé leur modèle sur plusieurs ensembles de données publiques (tels que SVHN, CIFAR-10, CIFAR-100 et CNAE-9) et un ensemble de données basé sur des applications réelles, Birdsong. Deux processus séquentiels ont été adoptés pour générer des labels bruyants : un processus uniforme et un processus dépendant des instances. Ces différents scénarios permettent de valider la robustesse des performances du modèle sur des niveaux variés de bruit de labels.
Résultats expérimentaux et enseignements clés
1. Comparaison des performances
Les résultats expérimentaux montrent que le modèle ASYCO surpasse de manière significative toutes les méthodes existantes sur les jeux de données testés, quels que soient les niveaux de bruit. Par exemple : - Sur CIFAR-10, pour des taux de bruit variant de q=0.1 à q=0.7, l’amélioration des performances d’ASYCO par rapport à ses meilleurs concurrents varie entre 0.361 % et 1.694 %.
2. Impact du design asymétrique
Les tests montrent que la conception asymétrique d’ASYCO offre un avantage notable face aux approches symétriques classiques. Par exemple, dans les expériences comparatives avec le modèle SyCo (symétrique), ASYCO obtient des améliorations significatives allant de 0.607 % à 0.955 %.
3. Stratégies de correction d’erreur
L’analyse démontre que les stratégies de correction d’erreur, notamment la distillation et le raffinement des vecteurs de confiance, jouent un rôle clé dans l’amélioration des performances globales.
4. Importance des labels de transformation
L’utilisation de labels de similarité par paires réduit considérablement le taux de bruit des données, contribuant à une meilleure stabilité lors de l’entraînement.
Conclusion et contributions
Le modèle ASYCO démontre sa capacité à surmonter le problème d’accumulation d’erreur dans l’apprentissage à étiquettes partielles grâce à son architecture innovante de co-entraînement asymétrique. Les enseignements essentiels incluent : - Une amélioration significative des performances prédictives, notamment dans les scénarios fortement bruités. - L’introduction d’un cadre de co-entraînement inexploré ouvrant des perspectives nouvelles dans le domaine. - De potentielles applications dans des tâches pratiques comme l’annotation d’images ou l’analyse de contenus multimédias.
Bien qu’ASYCO atteigne des résultats remarquables, ses exigences en termes de temps et de mémoire durant l’entraînement demeurent élevées. Dans le futur, les chercheurs prévoient d’optimiser davantage l’architecture de co-entraînement et les mécanismes d’interaction afin de réduire les coûts d’entraînement et d’explorer des applications plus vastes.