Complétion de graphes de connaissances par apprentissage conjoint des caractéristiques structurelles et des règles logiques souples

Ces dernières années, les graphes de connaissances (Knowledge Graph, KG) ont été largement utilisés dans de nombreuses tâches d’intelligence artificielle. Les graphes de connaissances représentent les entités et leurs relations en utilisant des triplets composés d’une entité tête (head entity), d’une relation (relation) et d’une entité queue (tail entity), par exemple, le triplet typique (h = Paris, r = capital_of, t = France) représente un fait commun du monde réel. Bien que le graphe de connaissances soit devenu une ressource importante pour de nombreuses applications d’intelligence artificielle en aval telles que les systèmes de questions-réponses intelligents, la désambiguïsation des entités, la recherche sémantique sur le web et la vérification des faits, les graphes de connaissances existants ne sont pas parfaits, souvent avec des relations manquantes ou contenant des erreurs. Pour faire face à ces problèmes, l’intégration des graphes de connaissances (Knowledge Graph Embedding, KGE) est devenue une tâche clé, apprenant les informations structurelles et les règles logiques latentes des graphes pour prédire les faits manquants.

Contexte de l’étude

Les modèles KGE existants, bien qu’améliorant dans une certaine mesure la complétude des graphes de connaissances, doivent faire face à deux défis non résolus : (i) comment utiliser simultanément les caractéristiques structurelles locales des entités et les règles logiques molles latentes pour apprendre des incorporations d’entités et de relations plus expressives ; (ii) comment intégrer ces deux processus d’apprentissage dans un modèle unifié pour obtenir de meilleures performances.

Pour résoudre ces problèmes, cet article propose un nouveau modèle KGE appelé JSSKGE, qui peut apprendre conjointement les caractéristiques structurelles locales des entités et les règles logiques molles, et a prouvé expérimentalement sa supériorité par rapport aux méthodes actuelles sur plusieurs ensembles de données.

Source de l’article

Les auteurs de cet article sont Weidong Li, Rong Peng et Zhi Li, respectivement de l’École d’informatique de l’Université de Wuhan et de l’École d’informatique et de génie de l’information de l’Université normale du Guangxi. Cette étude a été publiée le 30 août 2021, dans le volume 35, numéro 3, de la revue IEEE Transactions on Knowledge and Data Engineering.

Flux de travail de l’étude

Cette étude comprend plusieurs étapes principales, chacune soutenue par des expériences ou des méthodes de traitement des données spécifiques :

1. Apprentissage des caractéristiques structurelles

Tout d’abord, utiliser les réseaux d’attention graphes (Graph Attention Networks, GATs) pour agréger les informations structurelles locales des nœuds. Ce réseau est spécialement conçu pour traiter les données structurelles en graphe et peut automatiquement apprendre l’importance de chaque voisin d’un nœud, permettant de représenter plus précisément les caractéristiques structurelles des entités.

2. Utilisation des règles logiques molles

Utiliser les règles logiques molles implicites dans le graphe de connaissances comme experts pour améliorer davantage l’intégration des entités et des relations. Contrairement aux règles logiques dures, les règles logiques molles permettent l’existence de certains contre-exemples et peuvent être obtenues automatiquement par des outils d’extraction de règles associatives (tels que AMIE), évitant ainsi les coûts élevés de la construction de règles manuelles.

3. Apprentissage conjoint

Par un apprentissage conjoint des réseaux neuronaux d’attention de graphes et des règles logiques molles, il est possible d’obtenir des intégrations contenant plus d’informations pour prédire de nouveaux faits. Le modèle JSSKGE proposé dans cet article intègre les informations structurelles des entités et les règles logiques molles, et les résultats expérimentaux sur quatre ensembles de données couramment utilisés montrent qu’il surpasse les méthodes de pointe actuelles.

Expériences et résultats

Des évaluations expérimentales approfondies du modèle JSSKGE ont été menées sur quatre ensembles de données typiques, à savoir FB15k, WN18, FB15k-237 et WN18RR. Ces ensembles de données couvrent des graphes de connaissances de différentes tailles et domaines :

  • FB15k : un sous-ensemble du graphe de connaissances libre, contenant de nombreux faits sur les films, les acteurs, les sports et les récompenses.
  • WN18 : un sous-ensemble de WordNet, principalement composé de contenus liés aux dictionnaires intuitivement utilisables et aux thésaurus.
  • FB15k-237 et WN18RR : des sous-ensembles de FB15k et WN18, respectivement, conçus pour éliminer les problèmes de fuite des tests, rendant le modèle plus défiant et fiable.

Indicateurs d’évaluation des modèles

Pour évaluer les performances finales des modèles, des indicateurs couramment utilisés sont le rang moyen (Mean Rank, MR), le rang réciproque moyen (Mean Reciprocal Rank, MRR) et Hits@K (le pourcentage de résultats de prédiction parmi les K premiers). Plus particulièrement, cet article adopte des indicateurs d’évaluation filtrés, pour éviter les anomalies de classement dues à la présence d’entités candidates dans les ensembles d’entraînement ou de validation.

Résultats expérimentaux

Les résultats expérimentaux sur les ensembles de données FB15k et WN18 montrent que le modèle JSSKGE surpasse la plupart des modèles existants sur plusieurs indicateurs tels que Hits@10, Hits@3 et Hits@1, et se distingue particulièrement sur l’ensemble de données WN18. En outre, sur les ensembles de données plus défis FB15k-237 et WN18RR, le modèle JSSKGE montre toujours une forte robustesse et efficacité :

  • FB15k-237 : Sur les indicateurs MRR, Hits@10, Hits@3 et Hits@1, le modèle JSSKGE surpasse plusieurs modèles de référence, validant la faisabilité de l’apprentissage conjoint des caractéristiques structurelles et des règles logiques molles.
  • WN18RR : Bien que le modèle AnyBURL-EXT se performe mieux sur cet ensemble de données, le modèle JSSKGE montre toujours des avantages significatifs par rapport aux autres modèles.

Analyse de l’impact des paramètres

En ajustant les hyperparamètres, d’autres expériences ont confirmé l’importance relative de l’apprentissage des caractéristiques structurelles et des règles logiques molles dans le modèle UNSSKGE. Les résultats montrent que l’utilisation individuelle de ces méthodes ne permet pas d’atteindre des performances optimales, seul un apprentissage conjoint peut pleinement exploiter leurs avantages respectifs.

Visualisation des poids d’attention

La visualisation des tendances de changement des poids d’attention dans les couches de graph attentions du modèle montre que celui-ci se concentre de plus en plus sur certaines connexions spécifiques d’entités pour optimiser les résultats de prédiction, ce qui vérifie encore le rôle important du mécanisme d’attention dans le processus d’apprentissage.

Conclusion

Le modèle JSSKGE proposé dans cet article, en apprenant conjointement les caractéristiques structurelles et les règles logiques molles, améliore efficacement la capacité d’expression d’intégration et la précision de prédiction des graphes de connaissances. Néanmoins, ce modèle doit être amélioré en termes de coûts de calcul et de ressources spatiales. Les travaux futurs exploreront des méthodes d’apprentissage des caractéristiques structurelles plus efficaces et introduiront des règles logiques plus complexes pour améliorer encore les performances du modèle.