Mécanismes neuronaux de l'apprentissage relationnel et de la réassemblage rapide des connaissances dans les réseaux neuronaux plastiques
Mécanismes neuronaux et apprentissage relationnel : réassemblage rapide des connaissances dans les réseaux neuronaux
Contexte
Les humains et les animaux possèdent une capacité remarquable à apprendre les relations entre les éléments de leur expérience (comme les stimuli, les objets et les événements), permettant ainsi une généralisation structurée et une intégration rapide des informations. Un type fondamental de cet apprentissage relationnel est l’apprentissage séquentiel, qui permet de réaliser des inférences transitives (par exemple, si a > b et b > c, alors a > c) ainsi que de lier des listes (par exemple, a > b > c et d > e > f sont rapidement réassemblées en a > b > c > d > e > f après avoir appris c > d). Bien que ce domaine ait fait l’objet de recherches approfondies, les mécanismes neurobiologiques sous-jacents à l’inférence transitive et au réassemblage rapide des connaissances restent mal compris. Cet article démontre comment les réseaux neuronaux, dotés de plasticité synaptique modulée par la neuromodulation (permettant un apprentissage autodirigé) et identifiés par méta-apprentissage artificiel (apprendre à apprendre), peuvent effectuer à la fois des inférences transitives et des liens entre listes, tout en reproduisant les modèles comportementaux largement observés chez les humains et les animaux.
Source de l’article
Cet article a été rédigé par Thomas Miconi et Kenneth Kay, affiliés respectivement à ML Collective (San Francisco, États-Unis) et à l’Université Columbia (New York, États-Unis). Il a été publié en février 2025 dans la revue Nature Neuroscience, DOI : 10.1038/s41593-024-01852-8.
Processus de recherche
1. Conception de la tâche et du modèle
L’étude a d’abord conçu un paradigme de tâche classique, impliquant des inférences transitives et des liens entre listes. La tâche était organisée en plusieurs “épisodes”, chacun contenant plusieurs essais. Dans chaque épisode, le réseau devait apprendre l’ordre d’un ensemble de stimuli totalement nouveaux. Les stimuli étaient des vecteurs binaires de haute dimension, générés de manière aléatoire pour chaque épisode. Chaque épisode comprenait 30 essais, les 20 premiers ne contenant que des paires adjacentes (adjacent pairs), et les 10 derniers toutes les paires possibles (à l’exclusion des paires identiques comme aa ou bb).
2. Structure du réseau et méta-apprentissage
L’étude a utilisé un réseau de neurones récurrents (RNN) doté de plasticité synaptique et de neuromodulation auto-régulée. Les entrées du réseau comprenaient les stimuli du pas de temps actuel, le signal de récompense et la réponse du pas de temps précédent. La sortie du réseau était une distribution de probabilité sur deux réponses possibles. Au début de chaque épisode, les activations du réseau et les traces de plasticité Hebbienne étaient réinitialisées, mais les poids synaptiques restaient inchangés.
3. Plasticité synaptique
Les connexions récurrentes du réseau possédaient une plasticité Hebbienne modulable. Chaque connexion maintenait une trace d’éligibilité Hebbienne (eligibility trace), qui était une moyenne mobile décroissante du produit des sorties et des entrées. Le réseau produisait également un signal de neuromodulation m(t), utilisé pour contrôler la transformation des traces Hebbiennes en changements réels des poids synaptiques.
4. Processus de méta-apprentissage
L’objectif du méta-apprentissage était de former le réseau à apprendre de manière autonome de nouveaux ordres séquentiels sur plusieurs épisodes. À la fin de chaque épisode, une descente de gradient était appliquée pour optimiser les paramètres structurels du réseau (comme les poids de base et les paramètres de plasticité), afin d’améliorer l’apprentissage basé sur la plasticité au sein de l’épisode. La fonction de perte était la récompense totale obtenue sur l’ensemble de l’épisode.
Résultats principaux
1. Modèles comportementaux de l’inférence transitive
L’étude a d’abord évalué les modèles comportementaux du réseau ayant réussi à apprendre. Le réseau a montré des modèles comportementaux classiques lors des essais de test, à savoir l’effet de distance symbolique (symbolic distance effect) et l’effet d’ancrage final (end-anchor effect). Ces modèles comportementaux sont cohérents avec les observations faites chez les humains et les animaux.
2. Capacité de lier des listes
Le réseau a également démontré une capacité à lier rapidement des listes apprises séparément. Après avoir appris deux sous-listes (par exemple, a > b > c > d et e > f > g > h), le réseau, après avoir appris d > e, a pu rapidement déduire l’ordre de la liste combinée (par exemple, b > f). Cette capacité montre que le réseau peut réassembler rapidement les connaissances existantes.
3. Analyse des mécanismes neuronaux
En utilisant l’analyse en composantes principales (PCA), l’étude a révélé que la première composante principale de l’activité du réseau était fortement alignée avec le vecteur de poids de sortie. Une analyse plus approfondie a montré que le réseau encodait l’ordre des stimuli dans leurs représentations individuelles. Le réseau représentait l’ordre en alignant les représentations individuelles des stimuli avec le vecteur de poids de sortie.
4. Apprentissage des représentations et réactivation
L’étude a également constaté que le réseau réactivait les représentations des stimuli précédents lors des essais, ces représentations existant sous une forme recodée. Cette réactivation a permis au réseau de modifier les représentations des stimuli précédents après un délai, permettant ainsi un réassemblage rapide des connaissances.
Conclusion
Cette étude a réussi à former, par méta-apprentissage, des réseaux neuronaux dotés de plasticité synaptique et de neuromodulation, pour accomplir des tâches d’apprentissage autonome et de réassemblage des connaissances dans un paradigme classique d’inférence transitive. L’étude a découvert que le réseau apprenait en réactivant les représentations des stimuli précédents, un mécanisme similaire au phénomène de rejeu de la mémoire (replay) observé chez les humains et les animaux. Cette recherche révèle non seulement les mécanismes neuronaux de l’apprentissage relationnel, mais offre également de nouvelles perspectives pour les futurs modèles cognitifs.
Points forts de l’étude
- Inférence transitive et liens entre listes : Le réseau a réussi à effectuer des inférences transitives et à lier des listes, reproduisant les modèles comportementaux classiques observés chez les humains et les animaux.
- Mécanisme de réactivation : Le réseau a réassemblé les connaissances en réactivant les représentations des stimuli précédents, un mécanisme similaire au rejeu de la mémoire.
- Méthode de méta-apprentissage : L’étude a utilisé le méta-apprentissage pour former le réseau à apprendre et à optimiser de manière autonome la plasticité synaptique, offrant ainsi un nouvel outil pour la recherche sur les modèles cognitifs.
Importance et valeur
Cette étude révèle non seulement les mécanismes neuronaux de l’apprentissage relationnel, mais ouvre également de nouvelles perspectives pour la recherche sur les modèles cognitifs. En formant des réseaux neuronaux par méta-apprentissage, l’étude montre comment un apprentissage autonome et l’optimisation de la plasticité synaptique peuvent accomplir des tâches cognitives complexes. Cette recherche offre une nouvelle perspective pour comprendre les mécanismes d’apprentissage chez les humains et les animaux, tout en fournissant un soutien théorique important pour le domaine de l’intelligence artificielle.