Réseaux de mémoire graphique profonde pour le traçage de connaissances robustes à l'oubli

Réseau de Mémoire Graphique Profonde pour le Suivi de Connaissances Robustes À l’Oubli

Ces dernières années, le suivi des connaissances (Knowledge Tracing, KT) en tant que méthode importante d’apprentissage personnalisé a attiré une attention considérable. Le suivi des connaissances vise à prédire la précision des réponses des étudiants à de nouvelles questions, en utilisant l’historique de leurs réponses aux questions précédentes pour estimer leur état de connaissance. Cependant, les méthodes actuelles de suivi des connaissances rencontrent encore certains défis, notamment la modélisation du comportement d’oubli et l’identification des relations entre les concepts latents. Pour résoudre ces problèmes, cet article propose un nouveau modèle de suivi des connaissances, à savoir le Réseau de Mémoire Graphique Profonde (Deep Graph Memory Network, DGMN). Cet article décrit en détail la conception du modèle DGMN, le processus expérimental et ses performances sur divers ensembles de données.

Contexte de la recherche

Depuis sa proposition, la problématique du suivi des connaissances est un domaine de recherche important dans le domaine de l’éducation. Son objectif principal est de prédire la probabilité de bonnes réponses aux questions futures des étudiants à partir de leurs données de réponses historiques. Les premières méthodes de suivi des connaissances incluaient principalement des méthodes basées sur des approches bayésiennes et des modèles d’espaces d’états, tels que les modèles de Markov cachés (Hidden Markov Models, HMM). Bien que ces méthodes soient conceptuellement simples, elles se basent souvent sur des hypothèses trop simplifiées concernant l’état des connaissances et les concepts latents, ce qui entraîne une complexité d’inférence élevée.

Ces dernières années, les méthodes d’apprentissage profond ont été introduites dans le domaine du suivi des connaissances en utilisant des réseaux de neurones profonds pour modéliser les séquences de réponses. Ces méthodes ont considérablement amélioré la précision des prédictions. Par exemple, le modèle de suivi des connaissances profondes (Deep Knowledge Tracing, DKT) proposé par Piech et al. utilise des réseaux de neurones récurrents (Recurrent Neural Network, RNN) pour suivre l’état des connaissances des étudiants.

Schéma du modèle DGMN Bien que les méthodes d’apprentissage profond aient fait des progrès significatifs dans le domaine du suivi des connaissances, elles présentent encore des défis en matière de modélisation du comportement d’oubli et d’identification des relations entre les concepts latents. Pour cela, le modèle DGMN proposé dans cet article introduit un mécanisme de porte d’oubli dans la structure de mémoire attentionnelle pour capturer dynamiquement le comportement d’oubli dans le processus de suivi des connaissances.

Source de l’article

Cet article a été rédigé par Ghodai Abdelrahman et Qing Wang, tous deux issus de l’école de calcul de l’Australian National University (Université nationale australienne). L’article a été publié le 9 septembre 2022 dans le journal IEEE Transactions on Knowledge and Data Engineering (TKDE).

Méthode de recherche et processus

Aperçu de la méthode

Le modèle DGMN combine deux composantes principales, à savoir la mémoire attentionnelle (Attention Memory) et le graphique de concepts latents (Latent Concept Graph), en introduisant un nouveau mécanisme de modélisation de l’oubli, composé des étapes suivantes : 1. Mémoire d’Embedding de Concepts (Concept Embedding Memory) : Cette composante stocke le vecteur d’embedding de chaque concept latent et calcule la corrélation entre la question actuelle et les embeddings stockés par le biais du mécanisme d’attention. 2. Mémoire d’État de Concepts (Concept State Memory) : Stocke l’état de connaissance actuel de l’étudiant, en utilisant le mécanisme d’attention pour lire les données d’état de connaissance pertinentes dans la séquence de réponses. 3. Mécanisme de Porte d’Oubli (Forget Gating Mechanism) : Combine les caractéristiques d’oubli avec l’état de connaissance actuel, ajustant dynamiquement l’état de connaissance en fonction de la séquence de réponses passées pour la prédiction de la réponse finale. 4. Graphique de Concepts Latents (Latent Concept Graph) : Extrait les relations entre les concepts latents à l’aide d’un réseau de convolution sur graphes (Graph Convolutional Network) et combine ces relations de manière pondérée pendant le processus de prédiction.

Processus spécifique

  1. Embedding des questions et réponses : Une fois un ensemble de questions donné, le DGMN commence par l’embedding des vecteurs de question et stocke ces informations dans une matrice de mémoire.
  2. Calcul du mécanisme d’attention : Calcule la distribution de corrélation entre l’embedding de la question actuelle et la matrice de mémoire par le produit scalaire, formant un vecteur de corrélation.
  3. Lecture de l’état de connaissance pertinent : Lit les informations d’état de connaissance correspondantes de la mémoire d’état de concepts en fonction du vecteur de corrélation.
  4. Construction des caractéristiques d’oubli : Calcule les caractéristiques d’oubli dans la séquence de questions et réponses, y compris l’intervalle de temps et le nombre de réponses, et combine avec l’état de connaissance par le mécanisme de porte d’oubli.
  5. Mise à jour de la mémoire : Met à jour l’état de connaissance stocké en générant de nouveaux vecteurs via le mécanisme de porte basé sur les dernières données de questions et réponses.
  6. Construction du graphique de concepts latents : Utilise le réseau de convolution sur graphes (Graph Convolutional Network, GCN) pour extraire les relations entre les concepts latents de la matrice d’embedding et ajuste dynamiquement la structure du graphique pour suivre les relations entre les concepts latents en fonction des changements de l’état de connaissance.
  7. Prédiction des réponses : Combine les informations de mémoire attentionnelle et les relations du graphique de concepts latents et les entre dans une couche entièrement connectée pour prédire la probabilité de réponse correcte.

Configuration expérimentale et ensembles de données

L’étude a mené des expériences sur quatre ensembles de données de référence largement utilisés :

  1. ASSISTments2009 : Comprend des questions de mathématiques scolaires, collectées pendant l’année scolaire 2009-2010, avec 110 questions, 4151 étudiants, pour un total de 325637 paires question-réponse.
  2. Statics2011 : Données collectées à partir des cours d’ingénierie de l’Université Carnegie Mellon, avec 1223 questions, 335 étudiants, pour un total de 189297 paires question-réponse.
  3. Synthetic-5: Données simulées par les auteurs du modèle DKT, avec 4000 étudiants, 50 questions, pour un total de 200000 réponses.
  4. KDDCup2010 : Basé sur des données de cours d’algèbre de l’année 2005-2006, avec 436 questions, 575 étudiants, pour un total de 607026 réponses.

Optimisation du modèle

Le modèle a été optimisé à l’aide de l’algorithme d’optimisation Adam, avec des paramètres de la matrice de mémoire et de la matrice d’embedding initialisés par une distribution gaussienne de moyenne nulle. En outre, la descente de gradient a été effectuée en utilisant la fonction de perte d’entropie croisée.

Résultats expérimentaux et discussion

Comparaison des performances du modèle

Les résultats expérimentaux montrent que le DGMN surpasse tous les modèles de KT actuels les plus performants sur tous les ensembles de données. En comparaison avec les modèles SAINT+, AKT, DKVMN, entre autres, le DGMN affiche une amélioration significative des performances et démontre une forte capacité de généralisation sur différents ensembles de données.

Expériences d’ablation des caractéristiques

À travers des expériences comparatives sur différentes variantes de modèles, il a été constaté que les modules du graphique de concepts latents, le mécanisme de porte d’oubli, et la technique de séquençage des questions améliorent significativement les performances du DGMN. Lorsque l’un des modules est supprimé, la valeur de l’AUC du modèle baisse considérablement, indiquant que chaque composant contribue aux performances globales du modèle.

Analyse du graphique de concepts latents

Une analyse du graphique de concepts latents a été réalisée sur les ensembles de données ASSISTments2009 et Statics2011, visualisant les relations entre les concepts latents, confirmant l’efficacité du DGMN dans le suivi de l’état des connaissances et la capture des relations.

Analyse de la modélisation des caractéristiques d’oubli

Un comparatif en cartes thermiques entre les modèles DGMN et DKT + Forget montre que le DGMN capture plus précisément le comportement d’oubli entre différents concepts, renforçant encore l’efficacité de ce mécanisme d’oubli.

Importance et valeur de la recherche

Le modèle DGMN offre une méthode efficace pour intégrer dynamiquement le comportement d’oubli et les relations entre concepts latents dans le processus de suivi des connaissances. Cela a non seulement une valeur significative pour la recherche scientifique, mais aussi des applications potentiellement larges dans l’éducation pratique, telles que l’enseignement personnalisé, l’optimisation des parcours d’apprentissage et la recommandation de questions sur les plateformes d’éducation en ligne. Les travaux futurs peuvent explorer davantage l’application du graphique de concepts latents dans l’apprentissage des cours et la recommandation d’exercices pour les étudiants, en continuant à optimiser les capacités de prédiction et l’applicabilité du modèle.