Connecter des Intégrations Basées sur les Réseaux d'Attention de Graphes Relationnels Multiplexes pour la Typisation des Entités de Graphes de Connaissance

Connexion des Embeddings Basée sur les Réseaux d’Attention Graphiques Multi-Relations pour l’Identification des Types d’Entités dans les Graphes de Connaissances

Contexte de l’étude

De nos jours, les graphes de connaissances (Knowledge Graphs, KGs) suscitent un intérêt croissant dans divers domaines de l’IA où ils jouent un rôle clé. Les KGs à grande échelle fournissent des informations structurées riches et efficaces, constituant une ressource de données essentielle pour plusieurs applications intelligentes, telles que les systèmes de questions-réponses et la recherche sur le Web. Généralement, les KGs contiennent de nombreux exemples de types d’entités (Entity Typing) sous forme de tuples ((e, t)), où (e) est l’entité et (t) est son type hiérarchique. Bien que les KGs modernes (tels que Freebase, YAGO et Google Knowledge Graph) aient connu un grand succès, leur couverture est encore loin d’être complète. Par exemple, dans le jeu de données FB15k, 10 % des entités de type /music/artist n’ont pas de type /people/person. Ce problème clé a déclenché de nombreuses recherches sur l’identification des types d’entités dans les graphes de connaissances (KGET), c’est-à-dire la prédiction des types d’entités manquants dans le KG, un sous-tâche importante pour la complétion de graphes de connaissances (KGC). KGET est très utile pour de nombreux algorithmes aval impliquant des types (tels que l’apprentissage de représentations de connaissances, la liaison d’entités, l’extraction de relations et les systèmes de questions-réponses).

Source de l’article

Cet article est rédigé par les auteurs suivants : Yu Zhao, Han Zhou, Anxiang Zhang, Ruobing Xie, Qing Li (membre de l’IEEE) et Fuzhen Zhuang (membre de l’IEEE). Les auteurs viennent des institutions suivantes : le Centre d’Innovation en Fintech, le Laboratoire Clé de Finance Intelligente et d’Ingénierie Financière de la Province du Sichuan, l’Université Southwest of Finance and Economics, Baidu Inc., l’École d’Informatique de l’Université Carnegie Mellon, le centre de produits de recherche WeChat, Tencent, l’Institut de Recherche en Intelligence Artificielle, et l’École d’Informatique de Beihang. Cet article a été publié en mai 2023 dans la revue IEEE Transactions on Knowledge and Data Engineering.

Détails de l’étude

Processus de travail

La méthode de recherche de cet article comprend la construction d’un graphe de relations hétérogènes (HRG), et la proposition d’un réseau d’attention graphique multi-relations (MRGAT) pour apprendre sur le HRG, suivi de l’utilisation d’un modèle de connexion des embeddings (ConnectE) pour l’inférence des types d’entités. Le processus spécifique comprend les étapes clés suivantes :

  1. Construction d’un Graphe de Relations Hétérogènes (HRG) : Pour intégrer efficacement les informations de structure hétérogènes existantes dans le KG (telles que les tuples de types d’entités et les triplets de relations d’entités), un HRG est construit, contenant trois sous-graphes sémantiques différents mais liés. Chaque sous-graphe encode un type de relation entre les entités et les types d’entités : le graphe de relations d’entités (G_ER), le graphe de relations de types d’entités (G_E2T) et le graphe de relations de types (G_TRT).

  2. Apprentissage Réseau d’Attention Graphique Multi-Relations (MRGAT) : Le MRGAT est utilisé pour apprendre séparément sur tous les sous-graphes du HRG, à savoir : RGAT_ER, RGAT_E2T et RGAT_TRT. Ces modèles peuvent efficacement capturer les informations du voisinage en agrégeant les caractéristiques des nœuds environnants.

  3. Inférence des Types d’Entités : Utilisation du modèle ConnectE pour la prédiction des types d’entités sur les embeddings appris. ConnectE implémente deux mécanismes d’inférence de types guidés par la connaissance, permettant une inférence conforme aux instances de types d’entités et aux connaissances triplet du KG.

Expérimentations et Résultats

Les résultats expérimentaux montrent que le modèle proposé dans cet article, comparé à plusieurs méthodes de référence de pointe, obtient des améliorations significatives et cohérentes sur les tâches de prédiction et de classification des types d’entités sur deux jeux de données de référence.

Résultats de l’étude

  1. Prédiction des Types d’Entités : Cette tâche vise à inférer les types hiérarchiques manquants des instances de types d’entités incomplètes (par ex. (entité, type=?)). Le modèle proposé optimise ce processus en encodant les caractéristiques des nœuds environnants via MRGAT et en utilisant ConnectE pour l’inférence des types. Comparé aux autres méthodes de pointe, le modèle de cet article se distingue par ses performances optimales sur plusieurs métriques d’évaluation.

    • Métriques d’évaluation : L’évaluation du modèle utilise des critères de rang, où les types corrects bien classés indiquent de bonnes performances du modèle. Les métriques d’évaluation incluent le rang moyen réciproque (MRR) et le taux de succès @N (Hits@N).
    • Résultats : Le modèle de cet article dépasse significativement les modèles traditionnels sur les jeux de données FB15k et YAGO43k en termes de MRR et de Hits@N, avec une performance exceptionnelle sur le Hits@1.
  2. Classification des Types d’Entités : Cette tâche consiste à vérifier si une instance de type d’entité est correcte en construisant des exemples négatifs artificiels. Le modèle ConnectE montre une amélioration significative par rapport aux modèles traditionnels, avec une augmentation d’environ 3,5 % de la précision sur le jeu de données YAGO43k. L’intégration des informations du voisinage via MRGAT a encore amélioré la précision de la classification.

Signification et Valeur de l’Étude

Les principales contributions de cet article sont :

  1. Construction d’un Nouveau Graphe de Relations Hétérogènes : Intégration efficace des informations de structure hétérogène existantes dans le KG, incluant les tuples de types d’entités et les triplets de relations d’entités, fournissant une riche base de données pour l’apprentissage des embeddings.
  2. Proposition d’un Réseau d’Attention Graphique Multi-Relations (MRGAT) : Apprentissage sur les différents sous-graphes du HRG via MRGAT, exploitant pleinement les informations du voisinage, ce qui améliore l’efficacité de l’apprentissage des représentations.
  3. Proposition d’un Modèle de Connexion des Embeddings (ConnectE) : Basé sur les embeddings appris, le modèle améliore la précision de la prédiction des types d’entités en intégrant les mécanismes d’inférence des instances de types d’entités et des connaissances relationnelles.

Conclusion

La méthode de connexion des embeddings basée sur les réseaux d’attention graphiques multi-relations montre des performances exceptionnelles dans le domaine de l’identification des types d’entités, promettant de jouer un rôle important dans des applications pratiques telles que la complétion de graphes de connaissances, l’apprentissage de représentations de connaissances, etc. À l’avenir, cet article prévoit d’étendre la méthode pour intégrer des informations externes et proposer un nouveau réseau d’attention graphique de relations hétérogènes (HRGAT), visant à améliorer encore l’universalité et la précision du modèle.