Stratégie de non-échantillonnage basée sur des graphes pour une recommandation améliorée par graphes de connaissances
Recommandation améliorée par le graphe de connaissances sans échantillonnage basé sur le graphe
Ces dernières années, les systèmes de recommandation augmentés par le graphe de connaissances (Knowledge Graph, KG), visant à résoudre le problème du démarrage à froid et l’interprétabilité des systèmes de recommandation, ont attiré beaucoup d’attention. Les systèmes de recommandation existants se concentrent généralement sur les retours implicites, tels que l’historique d’achat, mais manquent de retours négatifs. La plupart des systèmes utilisent des stratégies d’échantillonnage négatif pour traiter les données de retours implicites, ce qui peut négliger les interactions potentielles positives entre utilisateurs et articles. D’autres travaux adoptent une stratégie sans échantillonnage, considérant toutes les interactions non observées comme des échantillons négatifs et attribuant un poids à chaque échantillon négatif pour représenter la probabilité que cet échantillon soit positif. Cependant, ces méthodes utilisent des stratégies de pondération simples et intuitives, incapables de capturer toutes les relations potentielles dans les données d’interaction.
Contexte et motivation de l’étude
Avec le développement rapide d’internet, le problème de la surcharge d’information devient de plus en plus sérieux. Pour améliorer l’expérience de recherche des utilisateurs et augmenter les revenus des fournisseurs de produits, les systèmes de recommandation sont apparus et ont connu un grand succès dans diverses applications telles que le commerce électronique et les réseaux sociaux. Ces dernières années, le graphe de connaissances en tant qu’information de contenu a été introduit dans les systèmes de recommandation pour résoudre les problèmes de démarrage à froid et d’interprétabilité. Par exemple, avec seulement l’historique de visionnage de quatre utilisateurs, le film « Avatar » ne peut pas être recommandé aux utilisateurs 1 et 2. Cependant, en reliant les informations de connaissance associées (par exemple, le réalisateur commun James Cameron), il est possible de générer des recommandations plus précises et raisonnables. La plupart des méthodes existantes se concentrent sur l’exploration de nouvelles architectures combinant les informations de connaissance et les données d’interaction utilisateur-objet dans différents systèmes de recommandation, telles que les réseaux neuronaux convolutifs (CNN), les mécanismes d’attention, les réseaux neuronaux de graphes (GNN), etc.
Source de l’étude et informations sur les auteurs
Cet article a été rédigé par Shuang Liang, Jie Shao, Jiasheng Zhang et Bin Cui, affiliés respectivement au Future Media Center de l’École d’Ingénierie et Informatique de l’Université d’Électro-Communication, et à l’Institut de Recherche en Intelligence Artificielle de Sichuan. L’article a été publié en septembre 2023 dans la revue IEEE Transactions on Knowledge and Data Engineering.
Contenu de l’étude et processus
Cet article propose une stratégie sans échantillonnage basée sur le graphe, réalisant des performances efficaces dans la recommandation augmentée par le graphe de connaissances. La méthode proposée utilise la centralité des nœuds pour améliorer significativement les performances de recommandation, tout en combinant l’intégration du graphe de connaissances et la tâche de recommandation en capturant efficacement les informations de connexion de haut niveau à travers des blocs d’agrégation locale. Les expériences sur trois ensembles de données montrent que la méthode proposée offre une efficacité compétitive, atteignant le niveau de recherche le plus récent.
Processus d’étude
- Traitement des données d’interaction utilisateur-objet : La recherche convertit d’abord les données d’interaction utilisateur-objet en données de structure de graphe.
- Calcul de la centralité des nœuds : Utilisation de la centralité des nœuds pour déterminer la pondération de chaque nœud, en particulier dans le graphe de connaissances.
- Intégration du graphe de connaissances : Formation de l’intégration en utilisant les informations structurelles du graphe de connaissances.
- Agrégation des k voisins au top multi-sauts : Capture des informations de connexion de haut niveau, échantillonnage des nœuds voisins les plus importants en fonction de la centralité des nœuds et mise à jour de l’intégration de ces nœuds.
- Optimisation du modèle: Utilisation finale de la fonction de perte sans échantillonnage pour optimiser les paramètres du modèle.
Expérimentations et analyse des résultats
Des expériences approfondies ont été réalisées sur trois ensembles de données publics, Amazon-Book, Yelp2018 et Last-FM, démontrant que la méthode proposée surpasse les méthodes actuelles en termes de performance et d’efficacité de la recommandation. Les résultats spécifiques des expérimentations comprennent les aspects suivants :
- Comparaison des performances de recommandation : La méthode proposée obtient les meilleurs résultats sur tous les ensembles de données, en particulier lorsque la densité des interactions utilisateur-objet est faible.
- Efficacité des stratégies de pondération : Comparaison de différentes stratégies de pondération (telles que la répartition uniforme, la répartition aléatoire, la répartition par fréquence, la centralité de degré et la centralité PageRank), confirmant l’efficacité de la centralité PageRank dans la recommandation.
- Efficacité de l’agrégation des voisins au top multi-sauts : L’échantillonnage multi-niveaux des voisins et l’agrégation des informations permettent de capturer mieux les informations de connexion de haut niveau, améliorant significativement la précision de la recommandation.
Conclusion et valeur
La stratégie sans échantillonnage basée sur le graphe proposée dans cet article présente non seulement des avantages significatifs en termes d’efficacité calculatoire mais améliore également notablement les performances de recommandation des systèmes de recommandation augmentés par le graphe de connaissances. En introduisant les informations structurelles du graphe, il est possible de répartir de manière plus raisonnable les poids des échantillons négatifs et de capturer les informations de connexion de haut niveau. Cela a une valeur d’application importante dans des scénarios de recommandation avec des données sparsifiées, tels que le commerce électronique et les réseaux sociaux.
Points forts et innovations
- Établissement d’un nouveau paradigme de recherche : En introduisant les informations structurelles du graphe dans la stratégie sans échantillonnage, la méthode proposée offre une nouvelle solution pour les systèmes de recommandation augmentés par le graphe de connaissances.
- Calcul efficace : La méthode proposée améliore non seulement la précision de la recommandation mais maintient également l’efficacité calculatoire, présentant une nette augmentation de la vitesse par rapport aux méthodes traditionnelles.
- Échantillonnage des voisins au top multi-sauts : Cette méthode, en choixnant les voisins les plus importants lors de l’agrégation, capture efficacement les informations de connexion de haut niveau, améliorant la qualité de la recommandation.
Les travaux futurs exploreront davantage les réseaux de neurones avancés pour graphes et diverses algorithmes de centralité des nœuds, afin d’optimiser les effets des stratégies sans échantillonnage basées sur le graphe.