Apprentissage Continu Basé sur la Répétition avec des Invites Doubles

2025-03-14 Fri
Apprentissage Continu Invites Doubles Distillation de Connaissances Oubli Catastrophique Réseaux Neuronaux
Contexte académiqueDans le domaine de l’apprentissage automatique et des réseaux de neurones, l’apprentissage continu (Continual Learning) est une direction de recherche importante. L’objectif de l’apprentissage continu est de permettre à un modèle d’apprendre continuellement de nouvelles connaissances tout en évitant d’oublier les connaissances déjà acquises. Cependant, les méthodes existantes d’apprentissage continu font face à un défi majeur : l’oubli catastrophique (Catastrophic Forgetting). L’oubli catastrophique se réfère au fait que le modèle, en apprenant une nouvelle tâche, oublie rapidement les connaissances précédemment acquises, ce qui entraîne une baisse significative des performances sur les tâches anciennes. Ce problème est particulièrement critique dans les applications réelles, car de nombreuses tâches nécessitent que le modèle apprenne et s’adapte dans un environnement en constante évolution.
Pour résoudre ce problème, les chercheurs ont proposé diverses méthodes, parmi lesquelles les méthodes basées sur la répétition (Rehearsal-based Methods) sont une solution courante. Ces méthodes stockent des échantillons représentatifs des tâches anciennes et les rejouent lors de l’apprentissage de nouvelles tâches pour consolider les connaissances anciennes. Cependant, les méthodes de répétition existantes présentent deux problèmes principaux : 1) lors de l’apprentissage de nouvelles tâches, la capacité de généralisation du modèle est faible en raison du nombre limité d’échantillons ; 2) la distillation de connaissances (Knowledge Distillation) peut transférer les connaissances anciennes, mais des contraintes trop fortes peuvent limiter la capacité du modèle à apprendre de nouvelles connaissances.
Pour atténuer ces problèmes, une équipe de recherche de l’Université d’Information et de Technologie de Nanjing, de l’Université Forestière de Nanjing, de l’Université du Sud-Est et de l’Université des Postes et Télécommunications de Nanjing a proposé une méthode d’apprentissage continu basée sur des duales incitations, appelée DUPT. Cette méthode introduit une incitation consciente de l’entrée (Input-aware Prompt) et une incitation de caractéristique proxy (Proxy Feature Prompt) pour améliorer la capacité de généralisation et l’efficacité du transfert de connaissances à la fois au niveau de l’entrée et des caractéristiques.
Source de l’articleCet article a été co-écrit par Shengqin Jiang, Daolong Zhang, Fengna Cheng, Xiaobo Lu et Qingshan Liu. Les auteurs sont respectivement affiliés à l’École d’Informatique de l’Université d’Information et de Technologie de Nanjing, à l’École d’Ingénierie Mécanique et Électronique de l’Université Forestière de Nanjing, à l’École d’Automatisation de l’Université du Sud-Est et à l’École d’Informatique de l’Université des Postes et Télécommunications de Nanjing. L’article a été publié en 2025 dans la revue Neural Networks, sous le titre DUPT: Rehearsal-based Continual Learning with Dual Prompts.
Processus de recherche1. Incitation consciente de l’entrée (Input-aware Prompt)Dans le processus d’apprentissage continu, le nombre d’échantillons pour les nouvelles tâches est généralement limité, ce qui restreint la capacité de généralisation du modèle. Pour résoudre ce problème, DUPT introduit une incitation consciente de l’entrée, qui étend dynamiquement la distribution des entrées pour aider le modèle à mieux capturer les caractéristiques des échantillons des nouvelles tâches.
Plus précisément, l’incitation consciente de l’entrée est générée selon les étapes suivantes :
1. Prétraitement des données d’entrée : Les images d’entrée sont sous-échantillonnées à une résolution de 16×16 pour réduire la complexité de calcul.
2. Mécanisme d’attention : Les images sous-échantillonnées sont introduites dans un module d’attention gelé pour générer des vecteurs d’attention.
3. Génération des poids : Les vecteurs d’attention sont passés à travers une couche entièrement connectée pour générer des vecteurs de poids correspondant au nombre d’incitations dans le pool d’incitations.
4. Génération des incitations : Les vecteurs de poids sont multipliés par les incitations du pool d’incitations et sommés pour générer l’incitation consciente de l’entrée finale.
L’avantage de l’incitation consciente de l’entrée est qu’elle peut générer des distributions d’entrée diversifiées à partir d’un nombre limité d’incitations, améliorant ainsi la capacité de généralisation du modèle.
2. Incitation de caractéristique proxy (Proxy Feature Prompt)Dans l’apprentissage continu, le transfert des connaissances anciennes est généralement réalisé par distillation de connaissances. Cependant, l’alignement direct des caractéristiques des modèles anciens et nouveaux peut limiter la capacité du modèle à apprendre de nouvelles connaissances. Pour résoudre ce problème, DUPT introduit une incitation de caractéristique proxy, qui construit une représentation intermédiaire apprenable pour atténuer les conflits de caractéristiques.
Plus précisément, l’incitation de caractéristique proxy est générée selon les étapes suivantes :
1. Initialisation du pool d’incitations : Un pool d’incitations contenant un nombre fixe d’incitations est initialisé.
2. Extraction des caractéristiques : Les incitations du pool d’incitations sont introduites séparément dans une couche de convolution et une couche entièrement connectée pour générer des incitations apprenables.
3. Distillation de connaissances : La fonction objectif est optimisée pour contraindre les différences entre les caractéristiques du modèle actuel et l’incitation de caractéristique proxy, tout en maintenant la cohérence entre l’incitation de caractéristique proxy et les caractéristiques du modèle ancien.
L’avantage de l’incitation de caractéristique proxy est qu’elle évite l’alignement direct des caractéristiques des modèles anciens et nouveaux, permettant ainsi de maintenir les connaissances anciennes tout en améliorant la capacité du modèle à apprendre de nouvelles connaissances.
3. Objectif d’optimisationL’objectif d’optimisation de DUPT comprend les parties suivantes :
1. Perte d’entropie croisée : Utilisée pour optimiser les données de la tâche actuelle.
2. Perte d’entropie croisée de répétition : Utilisée pour optimiser les données des tâches anciennes dans le tampon de répétition.
3. Perte de distillation logarithmique de répétition : Utilisée pour contraindre les différences de sortie entre le modèle actuel et le modèle ancien sur les données de répétition.
4. Perte de distillation des caractéristiques : Utilisée pour contraindre les différences entre les caractéristiques du modèle actuel et l’incitation de caractéristique proxy.
En optimisant conjointement ces objectifs, DUPT peut améliorer à la fois la stabilité et la plasticité du modèle lors de l’apprentissage continu.
Résultats principauxDUPT a été testé sur plusieurs ensembles de données, notamment CIFAR10, CIFAR100 et TinyImageNet. Les résultats expérimentaux montrent que DUPT excelle dans les tâches d’apprentissage continu, en particulier lorsque la taille du tampon est petite, où les performances de DUPT surpassent significativement celles des méthodes existantes.
Ensemble de données CIFAR10 : Avec une taille de tampon de 200, DUPT a amélioré la précision moyenne de DER++ de 4,92 %.
Ensemble de données CIFAR100 : Avec une taille de tampon de 500, DUPT a amélioré la précision moyenne de DER++ de 3,41 %.
Ensemble de données TinyImageNet : Avec une taille de tampon de 4000, DUPT a amélioré la précision moyenne de DER-BFP de 0,82 %.
De plus, DUPT a démontré sa compatibilité avec les méthodes existantes. Lorsqu’il est combiné avec la méthode DER-BFP, DUPT a amélioré les performances de 1,30 % et 1,34 % sur les ensembles de données CIFAR10 et CIFAR100, respectivement.
ConclusionDUPT introduit une incitation consciente de l’entrée et une incitation de caractéristique proxy pour améliorer la capacité de généralisation et l’efficacité du transfert de connaissances à la fois au niveau de l’entrée et des caractéristiques. Les résultats expérimentaux montrent que DUPT excelle sur plusieurs ensembles de données, en particulier lorsque la taille du tampon est petite, où ses performances surpassent significativement celles des méthodes existantes. De plus, la compatibilité de DUPT lui permet de s’intégrer de manière transparente avec les méthodes d’apprentissage continu existantes, améliorant ainsi encore les performances.
Points forts de la rechercheMécanisme de double incitation : DUPT utilise une incitation consciente de l’entrée et une incitation de caractéristique proxy pour améliorer la capacité de généralisation et l’efficacité du transfert de connaissances à la fois au niveau de l’entrée et des caractéristiques.
Amélioration significative des performances : Avec une petite taille de tampon, DUPT a réalisé des améliorations significatives des performances sur plusieurs ensembles de données.
Compatibilité élevée : DUPT peut s’intégrer de manière transparente avec les méthodes d’apprentissage continu existantes, améliorant encore les performances.
Perspectives futuresBien que DUPT excelle dans les tâches d’apprentissage continu, certaines questions nécessitent une exploration plus approfondie. Tout d’abord, avec une petite taille de tampon, les performances de DUPT restent inférieures à celles obtenues avec une grande taille de tampon. Comment représenter plus efficacement les connaissances anciennes reste une question ouverte. Ensuite, DUPT repose sur des modèles entraînés à partir de zéro, qui sont sujets au surapprentissage sur de petits ensembles de données. Les recherches futures pourraient explorer comment utiliser des modèles pré-entraînés pour atténuer ce problème.
DUPT offre une solution efficace à l’apprentissage continu, avec une valeur scientifique et des perspectives d’application importantes.