mđixkg : MĂ©lange pour des exemples nĂ©gatifs plus difficiles dans le graphe de connaissances
Rapport académique
Introduction
Le graphe de connaissances (knowledge graph, KG) est une forme de donnĂ©es structurĂ©es qui enregistre des informations sur les entitĂ©s et les relations, largement utilisĂ© dans des domaines tels que les systĂšmes de question-rĂ©ponse, la recherche dâinformation et la lecture automatique. La technique dâintĂ©gration de graphe de connaissances (Knowledge Graph Embedding, KGE) amĂ©liore considĂ©rablement les performances des applications associĂ©es en mappant les entitĂ©s et les relations dâun graphe dans un espace vectoriel dense de faible dimension. Cependant, lors de la formation des modĂšles KGE, la gĂ©nĂ©ration dâĂ©chantillons nĂ©gatifs de haute qualitĂ© est cruciale.
Actuellement, les modĂšles KGE dominants rencontrent de nombreux dĂ©fis lors de la gĂ©nĂ©ration dâĂ©chantillons nĂ©gatifs. Certains modĂšles utilisent des distributions statiques simples, telles que la distribution uniforme ou la distribution de Bernoulli, ces mĂ©thodes produisent habituellement des Ă©chantillons nĂ©gatifs peu discriminants. De plus, les mĂ©thodes existantes sĂ©lectionnent gĂ©nĂ©ralement les Ă©chantillons nĂ©gatifs parmi les entitĂ©s dĂ©jĂ prĂ©sentes dans le graphe de connaissances, limitant ainsi la capacitĂ© Ă gĂ©nĂ©rer des Ă©chantillons nĂ©gatifs plus difficiles.
Cet article propose une nouvelle stratĂ©gie hybride, nommĂ©e mÂČixkg, qui utilise deux opĂ©rations mixtes pour gĂ©nĂ©rer des Ă©chantillons nĂ©gatifs plus difficiles : tout dâabord, le mĂ©lange des entitĂ©s de tĂȘte et de queue sous la mĂȘme relation, ce qui renforce la robustesse et la capacitĂ© de gĂ©nĂ©ralisation des embeddings dâentitĂ©s ; ensuite, en mĂ©langeant les Ă©chantillons nĂ©gatifs ayant des scores Ă©levĂ©s pour gĂ©nĂ©rer des Ă©chantillons nĂ©gatifs plus difficiles. Lâobjectif de cette Ă©tude est de rĂ©soudre les insuffisances des mĂ©thodes actuelles de gĂ©nĂ©ration dâĂ©chantillons nĂ©gatifs de haute qualitĂ© et de valider leur efficacitĂ© par des expĂ©riences.
Source de lâarticle
Cet article, intitulĂ© « mÂČixkg: Mixing for Harder Negative Samples in Knowledge Graph », a Ă©tĂ© Ă©crit par Feihu Che et Jianhua Tao de lâUniversitĂ© Tsinghua, et sera publiĂ© en 2024 dans le journal « Neural Networks ».
Processus de recherche
Lâarticle dĂ©taille le processus de recherche de mÂČixkg, comprenant les Ă©tapes principales suivantes :
1. Sélection des ensembles de données et des modÚles
LâĂ©tude utilise trois ensembles de donnĂ©es de rĂ©fĂ©rence largement reconnus : FB15k-237, WN18 et WN18RR. Ces ensembles de donnĂ©es proviennent de bases de connaissances rĂ©putĂ©es, telles que Freebase et WordNet. Les fonctions de scoring sĂ©lectionnĂ©es incluent TransE, RotatE, DistMult et ComplEx, qui sont des modĂšles classiques dans la recherche sur les KGE.
2. ParamÚtres expérimentaux
Les paramĂštres expĂ©rimentaux incluent lâutilisation de lâoptimiseur Adam pour lâentraĂźnement des modĂšles et lâajustement des hyperparamĂštres sur lâensemble de validation. Les hyperparamĂštres de lâĂ©tude incluent la taille des lots, la marge fixe, la taille de lâensemble des Ă©chantillons nĂ©gatifs et le coefficient de mĂ©lange, entre autres.
3. MĂ©thodologie mÂČixkg
mÂČixkg inclut deux principales opĂ©rations mixtes : mĂ©langer les entitĂ©s de tĂȘte et de queue (mix1) et mĂ©langer les Ă©chantillons nĂ©gatifs difficiles (mix2). ConcrĂštement : - Mix1 : MĂ©lange des entitĂ©s de tĂȘte et de queue : Les entitĂ©s de tĂȘte, les relations et les entitĂ©s de queue sont utilisĂ©es comme caractĂ©ristiques dâentrĂ©e, le codage du modĂšle et les Ă©tiquettes sont opĂ©rĂ©s par le modĂšle, rĂ©alisant des opĂ©rations de mĂ©lange pour les triplets sous la mĂȘme relation. Cela crĂ©e de nouveaux triplets, amĂ©liorant la capacitĂ© de gĂ©nĂ©ralisation du modĂšle. - Mix2 : MĂ©lange des Ă©chantillons nĂ©gatifs difficiles : PremiĂšrement, les Ă©chantillons nĂ©gatifs Ă©levĂ©s en qualitĂ© sont sĂ©lectionnĂ©s parmi les Ă©chantillons nĂ©gatifs dĂ©jĂ Ă©chantillonnĂ©s, puis ces Ă©chantillons nĂ©gatifs sont mĂ©langĂ©s pour crĂ©er des Ă©chantillons nĂ©gatifs plus difficiles.
Les Ă©tapes spĂ©cifiques incluent : 1. SĂ©lectionner alĂ©atoirement des entitĂ©s dans le graphe de connaissances pour former un ensemble de candidats dâĂ©chantillons nĂ©gatifs. 2. Calculer les scores de ces Ă©chantillons nĂ©gatifs et rĂ©aliser lâĂ©chantillonnage basĂ© sur la probabilitĂ© des scores. 3. SĂ©lectionner alĂ©atoirement une paire dâĂ©chantillons nĂ©gatifs et effectuer une interpolation linĂ©aire pour mĂ©langer leurs entitĂ©s de queue.
4. Fonction de perte
Les fonctions de perte utilisĂ©es dans cet article se divisent en deux catĂ©gories : - ModĂšle de distance de translation : comme TransE. - ModĂšle dâappariement sĂ©mantique : comme DistMult et ComplEx.
Le paramĂ©trage des fonctions de perte est crucial pour lâentraĂźnement du modĂšle, influençant directement les performances du modĂšle.
RĂ©sultats de recherche
LâĂ©tude vĂ©rifie lâefficacitĂ© de la mĂ©thode mÂČixkg par des expĂ©riences. Les rĂ©sultats expĂ©rimentaux montrent que cette mĂ©thode surpasse les algorithmes de gĂ©nĂ©ration dâĂ©chantillons nĂ©gatifs existants dans plusieurs contextes.
1. Résultats expérimentaux et analyse
En comparaison avec dâautres mĂ©thodes classiques de gĂ©nĂ©ration dâĂ©chantillons nĂ©gatifs, mÂČixkg montre une amĂ©lioration notable sur des indices dâĂ©valuation tels que MRR et Hits@10. ConcrĂštement, mÂČixkg amĂ©liore en moyenne le MRR de 0.0025 et 0.0011 sur les ensembles de donnĂ©es FB15k-237 et WN18RR respectivement, et amĂ©liore de maniĂšre significative Hits@10 de 0.21, 0.14, 0.94 et 0.27.
2. ExpĂ©riences dâablation
Les expĂ©riences dâablation confirment que les opĂ©rations mixtes contribuent Ă lâamĂ©lioration des performances du modĂšle. Les rĂ©sultats expĂ©rimentaux montrent que, peu importe la fonction de scoring ou lâensemble de donnĂ©es, les deux mĂ©thodes de mĂ©lange, mix1 et mix2, amĂ©liorent significativement les performances du modĂšle, et lâutilisation combinĂ©e des deux donne de meilleurs rĂ©sultats.
Conclusion et signification
La mĂ©thode mÂČixkg proposĂ©e gĂ©nĂšre des Ă©chantillons nĂ©gatifs plus difficiles par des opĂ©rations mixtes. Câest une technique simple mais efficace conçue pour amĂ©liorer les performances des modĂšles dâintĂ©gration de graphe de connaissances. LâĂ©tude a confirmĂ© lâimpact positif des opĂ©rations mixtes sur lâintĂ©gration des graphes de connaissances, notamment que le mĂ©lange des entitĂ©s de tĂȘte et de queue renforce la gĂ©nĂ©ralisation et la robustesse des embeddings appris, et que le mĂ©lange des Ă©chantillons nĂ©gatifs difficiles gĂ©nĂšre des Ă©chantillons nĂ©gatifs plus complexes, augmentant ainsi la capacitĂ© du modĂšle Ă distinguer les Ă©chantillons positifs et nĂ©gatifs.
Les contributions significatives de la mĂ©thode mÂČixkg sont les suivantes : - GĂ©nĂ©rer des Ă©chantillons nĂ©gatifs de haute qualitĂ© en incorporant des entitĂ©s virtuelles. - Renforcer la gĂ©nĂ©ralisation des embeddings appris en mĂ©langeant les entitĂ©s de tĂȘte et de queue sous la mĂȘme relation. - Concevoir un mĂ©canisme de sĂ©lection de quantitĂ© douce adaptĂ© pour diffĂ©rents paires tĂȘte-relation, permettant de sĂ©lectionner avec prĂ©cision des Ă©chantillons nĂ©gatifs difficiles.
Enfin, cet article fournit une nouvelle perspective et mĂ©thode pour la gĂ©nĂ©ration dâĂ©chantillons nĂ©gatifs difficiles, et vĂ©rifie Ă©galement son applicabilitĂ© Ă©tendue sur plusieurs ensembles de donnĂ©es et fonctions de scoring, offrant de nouvelles voies et moyens pour lâoptimisation des modĂšles KGE.