Apprentissage de représentation auto-supervisé guidé par un curriculum de réseaux hétérogènes dynamiques
Contexte académique
Dans le monde réel, les données de réseau (telles que les réseaux sociaux, les réseaux de citations, etc.) contiennent généralement différents types de nœuds et de liens, et ces structures de réseau évoluent dynamiquement au fil du temps. Pour mieux analyser ces réseaux complexes, les chercheurs ont proposé des techniques d’incorporation de réseaux (network embedding), qui visent à représenter les nœuds et les liens d’un réseau sous forme de vecteurs de longueur fixe, facilitant ainsi les tâches d’analyse ultérieures, telles que la classification des nœuds et la prédiction de liens. Cependant, les modèles traditionnels d’incorporation de réseaux sont confrontés à de nombreux défis lorsqu’il s’agit de traiter des réseaux dynamiques hétérogènes (dynamic heterogeneous networks), en particulier pour capturer efficacement les changements dynamiques et l’hétérogénéité des structures de réseau.
Ces dernières années, les modèles Transformer ont connu un succès remarquable dans le domaine du traitement du langage naturel (NLP), mais leur application à l’incorporation de réseaux en est encore à ses débuts. Les modèles Transformer, grâce à leur mécanisme d’auto-attention (self-attention), sont capables de capturer des relations complexes dans les données séquentielles, offrant ainsi une nouvelle perspective pour l’incorporation de réseaux. Cependant, les modèles Transformer existants sont principalement conçus pour des réseaux statiques ou homogènes, et manquent de support efficace pour les réseaux dynamiques hétérogènes.
Pour résoudre ce problème, cette étude propose un nouveau modèle Transformer appelé DHG-BERT (Dynamic Heterogeneous Graph BERT), qui combine des stratégies d’apprentissage par curriculum (curriculum learning) et d’apprentissage auto-supervisé (self-supervised learning), visant à apprendre plus efficacement les représentations des réseaux dynamiques hétérogènes. En introduisant l’apprentissage par curriculum, le modèle peut passer progressivement de structures de réseau simples à des structures complexes, améliorant ainsi l’efficacité de l’entraînement et la qualité des représentations.
Source de l’article
Cet article a été co-écrit par Namgyu Jung, David Camacho, Chang Choi et O.-Joun Lee. Namgyu Jung et Chang Choi sont affiliés au département de génie informatique de l’université de Gachon en Corée, David Camacho est affilié au département de génie des systèmes informatiques de l’université polytechnique de Madrid en Espagne, et O.-Joun Lee est affilié au département d’intelligence artificielle de l’université catholique de Corée. L’article a été accepté le 11 mars 2025 et publié dans la revue Cognitive Computation, avec le DOI 10.1007/s12559-025-10441-1.
Processus de recherche
1. Prétraitement des données et construction du réseau
Cette étude prend comme exemple un réseau de citations (bibliographic network) pour construire un réseau dynamique hétérogène. Ce réseau comprend trois types de nœuds : les auteurs (author), les articles (paper) et les conférences (venue), ainsi que trois types de relations : un auteur écrit un article, un article est publié dans une conférence, et un article en cite un autre. Le réseau évolue dynamiquement au fil du temps, chaque nœud et lien étant associé à un horodatage indiquant le moment de sa première apparition.
Pour représenter la structure complexe du réseau, les chercheurs ont utilisé des métaparcours (meta-path) comme entrées. Un métaparcours est une séquence de nœuds de types spécifiques, permettant de capturer les relations entre différents nœuds du réseau. Par exemple, le métaparcours “auteur-article-auteur” indique que deux auteurs ont co-écrit un article. Les chercheurs ont extrait 71 types de métaparcours à partir des données de citations de 2008 à 2018 et les ont utilisés comme entrées du modèle.
2. Structure du modèle
Le modèle DHG-BERT est basé sur l’architecture ALBERT (A Lite BERT) et a été modifié pour les réseaux dynamiques hétérogènes. L’idée centrale du modèle est de capturer l’hétérogénéité et la dynamique des structures de réseau grâce à des tâches d’apprentissage auto-supervisé. Plus précisément, le modèle propose deux tâches d’apprentissage auto-supervisé :
Récupération de métaparcours masqués (Masked Meta-path Recovery, MMR) : Similaire au modèle de langage masqué (Masked Language Model, MLM) de BERT, la tâche MMR demande au modèle de prédire les nœuds masqués dans un métaparcours. Grâce à cette tâche, le modèle peut apprendre les relations de co-occurrence et l’hétérogénéité entre les nœuds.
Prédiction de l’ordre temporel (Temporal Order Prediction, TOP) : Cette tâche demande au modèle de prédire l’ordre temporel des métaparcours générés par le même nœud à différents moments. Grâce à cette tâche, le modèle peut capturer les changements dynamiques dans la structure du réseau.
De plus, le modèle introduit une stratégie d’apprentissage par curriculum, passant progressivement de métaparcours simples à des métaparcours complexes, afin d’améliorer l’efficacité de l’entraînement.
3. Entraînement et réglage fin
L’entraînement du modèle se déroule en trois étapes : pré-entraînement (pre-training), post-entraînement (post-training) et réglage fin (fine-tuning).
Pré-entraînement : Le modèle apprend la topologie générale du réseau et ses changements dynamiques grâce aux tâches MMR et TOP. Le pré-entraînement commence par des métaparcours courts et passe progressivement à des métaparcours plus longs, aidant ainsi le modèle à comprendre progressivement les structures de réseau complexes.
Post-entraînement : Pendant la phase de post-entraînement, le modèle se concentre sur l’apprentissage des structures de réseau liées à la tâche cible. Par exemple, dans la tâche de prédiction des collaborations entre auteurs, le modèle se concentre sur les métaparcours liés aux auteurs (comme “auteur-article-auteur”).
Réglage fin : Pendant la phase de réglage fin, le modèle s’adapte à des tâches spécifiques en ajoutant une couche entièrement connectée supplémentaire, comme la prédiction de liens.
4. Expériences et évaluation
Les chercheurs ont évalué les performances du modèle en prédisant les futures collaborations entre auteurs. Les expériences ont utilisé le jeu de données ArnetMiner, qui contient des données de citations de 2008 à 2018. Les chercheurs ont utilisé les données de 2008 à 2013 pour l’entraînement et les données de 2014 à 2018 pour les tests. Les résultats expérimentaux montrent que DHG-BERT atteint une précision moyenne de 0,94 dans la prédiction des collaborations entre auteurs, surpassant significativement les modèles d’incorporation de réseaux existants.
Principaux résultats
Performances du modèle : DHG-BERT excelle dans la tâche de prédiction des collaborations entre auteurs, avec une précision moyenne de 0,94, surpassant les modèles existants de 0,13 à 0,35. En particulier, lorsque des propriétés dynamiques sont présentes (comme la prédiction de collaborations futures), la précision du modèle augmente de manière significative.
Efficacité des tâches d’apprentissage auto-supervisé : Grâce aux tâches MMR et TOP, le modèle peut capturer efficacement l’hétérogénéité et la dynamique des structures de réseau. Les expériences montrent que le modèle combinant ces deux tâches surpasse significativement les modèles utilisant uniquement l’une ou l’autre.
Efficacité de la stratégie d’apprentissage par curriculum : La stratégie d’apprentissage par curriculum améliore significativement l’efficacité de l’entraînement et la qualité des représentations. En passant progressivement de métaparcours simples à des métaparcours complexes, le modèle peut mieux comprendre la structure globale du réseau.
Conclusion et signification
Cette étude propose un nouveau modèle Transformer, DHG-BERT, qui combine des stratégies d’apprentissage par curriculum et d’apprentissage auto-supervisé pour apprendre efficacement les représentations des réseaux dynamiques hétérogènes. Les résultats expérimentaux montrent que DHG-BERT excelle dans des tâches telles que la prédiction des collaborations entre auteurs, surpassant significativement les modèles d’incorporation de réseaux existants.
La valeur scientifique de cette étude réside dans l’offre d’une nouvelle approche pour l’apprentissage des représentations des réseaux dynamiques hétérogènes, en particulier en combinant les modèles Transformer et les stratégies d’apprentissage par curriculum. De plus, ce modèle a un potentiel d’application large, comme dans l’analyse des réseaux sociaux ou des réseaux de citations.
Points forts de la recherche
Nouveau modèle Transformer : DHG-BERT est le premier modèle Transformer spécialement conçu pour les réseaux dynamiques hétérogènes, capable de capturer efficacement l’hétérogénéité et la dynamique des structures de réseau.
Tâches d’apprentissage auto-supervisé : Grâce aux tâches MMR et TOP, le modèle peut apprendre les relations de co-occurrence et les changements dynamiques entre les nœuds, améliorant ainsi la qualité des représentations.
Stratégie d’apprentissage par curriculum : La stratégie d’apprentissage par curriculum améliore significativement l’efficacité de l’entraînement, permettant au modèle de passer progressivement de structures de réseau simples à des structures complexes.
Valeur applicative : Ce modèle a un potentiel d’application large, comme dans l’analyse des réseaux sociaux ou des réseaux de citations.
Autres informations utiles
Les limites de cette étude incluent l’incapacité à traiter les nouveaux nœuds et liens, et le fait de ne pas prendre en compte les attributs des nœuds et des liens. Les recherches futures exploreront comment résoudre ces problèmes grâce à l’apprentissage de représentations inductives (inductive representation learning) et aux modèles Transformer multimodaux.