m𝟐ixkg : MĂ©lange pour des exemples nĂ©gatifs plus difficiles dans le graphe de connaissances

Rapport académique

Introduction

Le graphe de connaissances (knowledge graph, KG) est une forme de donnĂ©es structurĂ©es qui enregistre des informations sur les entitĂ©s et les relations, largement utilisĂ© dans des domaines tels que les systĂšmes de question-rĂ©ponse, la recherche d’information et la lecture automatique. La technique d’intĂ©gration de graphe de connaissances (Knowledge Graph Embedding, KGE) amĂ©liore considĂ©rablement les performances des applications associĂ©es en mappant les entitĂ©s et les relations d’un graphe dans un espace vectoriel dense de faible dimension. Cependant, lors de la formation des modĂšles KGE, la gĂ©nĂ©ration d’échantillons nĂ©gatifs de haute qualitĂ© est cruciale.

Actuellement, les modĂšles KGE dominants rencontrent de nombreux dĂ©fis lors de la gĂ©nĂ©ration d’échantillons nĂ©gatifs. Certains modĂšles utilisent des distributions statiques simples, telles que la distribution uniforme ou la distribution de Bernoulli, ces mĂ©thodes produisent habituellement des Ă©chantillons nĂ©gatifs peu discriminants. De plus, les mĂ©thodes existantes sĂ©lectionnent gĂ©nĂ©ralement les Ă©chantillons nĂ©gatifs parmi les entitĂ©s dĂ©jĂ  prĂ©sentes dans le graphe de connaissances, limitant ainsi la capacitĂ© Ă  gĂ©nĂ©rer des Ă©chantillons nĂ©gatifs plus difficiles.

Cet article propose une nouvelle stratĂ©gie hybride, nommĂ©e mÂČixkg, qui utilise deux opĂ©rations mixtes pour gĂ©nĂ©rer des Ă©chantillons nĂ©gatifs plus difficiles : tout d’abord, le mĂ©lange des entitĂ©s de tĂȘte et de queue sous la mĂȘme relation, ce qui renforce la robustesse et la capacitĂ© de gĂ©nĂ©ralisation des embeddings d’entitĂ©s ; ensuite, en mĂ©langeant les Ă©chantillons nĂ©gatifs ayant des scores Ă©levĂ©s pour gĂ©nĂ©rer des Ă©chantillons nĂ©gatifs plus difficiles. L’objectif de cette Ă©tude est de rĂ©soudre les insuffisances des mĂ©thodes actuelles de gĂ©nĂ©ration d’échantillons nĂ©gatifs de haute qualitĂ© et de valider leur efficacitĂ© par des expĂ©riences.

Source de l’article

Cet article, intitulĂ© « mÂČixkg: Mixing for Harder Negative Samples in Knowledge Graph », a Ă©tĂ© Ă©crit par Feihu Che et Jianhua Tao de l’UniversitĂ© Tsinghua, et sera publiĂ© en 2024 dans le journal « Neural Networks ».

Processus de recherche

L’article dĂ©taille le processus de recherche de mÂČixkg, comprenant les Ă©tapes principales suivantes :

1. Sélection des ensembles de données et des modÚles

L’étude utilise trois ensembles de donnĂ©es de rĂ©fĂ©rence largement reconnus : FB15k-237, WN18 et WN18RR. Ces ensembles de donnĂ©es proviennent de bases de connaissances rĂ©putĂ©es, telles que Freebase et WordNet. Les fonctions de scoring sĂ©lectionnĂ©es incluent TransE, RotatE, DistMult et ComplEx, qui sont des modĂšles classiques dans la recherche sur les KGE.

2. ParamÚtres expérimentaux

Les paramĂštres expĂ©rimentaux incluent l’utilisation de l’optimiseur Adam pour l’entraĂźnement des modĂšles et l’ajustement des hyperparamĂštres sur l’ensemble de validation. Les hyperparamĂštres de l’étude incluent la taille des lots, la marge fixe, la taille de l’ensemble des Ă©chantillons nĂ©gatifs et le coefficient de mĂ©lange, entre autres.

3. MĂ©thodologie mÂČixkg

mÂČixkg inclut deux principales opĂ©rations mixtes : mĂ©langer les entitĂ©s de tĂȘte et de queue (mix1) et mĂ©langer les Ă©chantillons nĂ©gatifs difficiles (mix2). ConcrĂštement : - Mix1 : MĂ©lange des entitĂ©s de tĂȘte et de queue : Les entitĂ©s de tĂȘte, les relations et les entitĂ©s de queue sont utilisĂ©es comme caractĂ©ristiques d’entrĂ©e, le codage du modĂšle et les Ă©tiquettes sont opĂ©rĂ©s par le modĂšle, rĂ©alisant des opĂ©rations de mĂ©lange pour les triplets sous la mĂȘme relation. Cela crĂ©e de nouveaux triplets, amĂ©liorant la capacitĂ© de gĂ©nĂ©ralisation du modĂšle. - Mix2 : MĂ©lange des Ă©chantillons nĂ©gatifs difficiles : PremiĂšrement, les Ă©chantillons nĂ©gatifs Ă©levĂ©s en qualitĂ© sont sĂ©lectionnĂ©s parmi les Ă©chantillons nĂ©gatifs dĂ©jĂ  Ă©chantillonnĂ©s, puis ces Ă©chantillons nĂ©gatifs sont mĂ©langĂ©s pour crĂ©er des Ă©chantillons nĂ©gatifs plus difficiles.

Les Ă©tapes spĂ©cifiques incluent : 1. SĂ©lectionner alĂ©atoirement des entitĂ©s dans le graphe de connaissances pour former un ensemble de candidats d’échantillons nĂ©gatifs. 2. Calculer les scores de ces Ă©chantillons nĂ©gatifs et rĂ©aliser l’échantillonnage basĂ© sur la probabilitĂ© des scores. 3. SĂ©lectionner alĂ©atoirement une paire d’échantillons nĂ©gatifs et effectuer une interpolation linĂ©aire pour mĂ©langer leurs entitĂ©s de queue.

4. Fonction de perte

Les fonctions de perte utilisĂ©es dans cet article se divisent en deux catĂ©gories : - ModĂšle de distance de translation : comme TransE. - ModĂšle d’appariement sĂ©mantique : comme DistMult et ComplEx.

Le paramĂ©trage des fonctions de perte est crucial pour l’entraĂźnement du modĂšle, influençant directement les performances du modĂšle.

RĂ©sultats de recherche

L’étude vĂ©rifie l’efficacitĂ© de la mĂ©thode mÂČixkg par des expĂ©riences. Les rĂ©sultats expĂ©rimentaux montrent que cette mĂ©thode surpasse les algorithmes de gĂ©nĂ©ration d’échantillons nĂ©gatifs existants dans plusieurs contextes.

1. Résultats expérimentaux et analyse

En comparaison avec d’autres mĂ©thodes classiques de gĂ©nĂ©ration d’échantillons nĂ©gatifs, mÂČixkg montre une amĂ©lioration notable sur des indices d’évaluation tels que MRR et Hits@10. ConcrĂštement, mÂČixkg amĂ©liore en moyenne le MRR de 0.0025 et 0.0011 sur les ensembles de donnĂ©es FB15k-237 et WN18RR respectivement, et amĂ©liore de maniĂšre significative Hits@10 de 0.21, 0.14, 0.94 et 0.27.

2. ExpĂ©riences d’ablation

Les expĂ©riences d’ablation confirment que les opĂ©rations mixtes contribuent Ă  l’amĂ©lioration des performances du modĂšle. Les rĂ©sultats expĂ©rimentaux montrent que, peu importe la fonction de scoring ou l’ensemble de donnĂ©es, les deux mĂ©thodes de mĂ©lange, mix1 et mix2, amĂ©liorent significativement les performances du modĂšle, et l’utilisation combinĂ©e des deux donne de meilleurs rĂ©sultats.

Conclusion et signification

La mĂ©thode mÂČixkg proposĂ©e gĂ©nĂšre des Ă©chantillons nĂ©gatifs plus difficiles par des opĂ©rations mixtes. C’est une technique simple mais efficace conçue pour amĂ©liorer les performances des modĂšles d’intĂ©gration de graphe de connaissances. L’étude a confirmĂ© l’impact positif des opĂ©rations mixtes sur l’intĂ©gration des graphes de connaissances, notamment que le mĂ©lange des entitĂ©s de tĂȘte et de queue renforce la gĂ©nĂ©ralisation et la robustesse des embeddings appris, et que le mĂ©lange des Ă©chantillons nĂ©gatifs difficiles gĂ©nĂšre des Ă©chantillons nĂ©gatifs plus complexes, augmentant ainsi la capacitĂ© du modĂšle Ă  distinguer les Ă©chantillons positifs et nĂ©gatifs.

Les contributions significatives de la mĂ©thode mÂČixkg sont les suivantes : - GĂ©nĂ©rer des Ă©chantillons nĂ©gatifs de haute qualitĂ© en incorporant des entitĂ©s virtuelles. - Renforcer la gĂ©nĂ©ralisation des embeddings appris en mĂ©langeant les entitĂ©s de tĂȘte et de queue sous la mĂȘme relation. - Concevoir un mĂ©canisme de sĂ©lection de quantitĂ© douce adaptĂ© pour diffĂ©rents paires tĂȘte-relation, permettant de sĂ©lectionner avec prĂ©cision des Ă©chantillons nĂ©gatifs difficiles.

Enfin, cet article fournit une nouvelle perspective et mĂ©thode pour la gĂ©nĂ©ration d’échantillons nĂ©gatifs difficiles, et vĂ©rifie Ă©galement son applicabilitĂ© Ă©tendue sur plusieurs ensembles de donnĂ©es et fonctions de scoring, offrant de nouvelles voies et moyens pour l’optimisation des modĂšles KGE.