KG4NH : Un graphe de connaissances complet pour répondre aux questions sur la nutrition alimentaire et la santé humaine
Contexte et motivation de la recherche
Comme il est bien connu, la nutrition alimentaire est étroitement liée à la santé humaine. Les recherches scientifiques montrent qu’une mauvaise nutrition alimentaire est associée à plus de 200 maladies, surtout lorsqu’on considère le métabolisme des micro-organismes intestinaux, rendant l’interaction complexe entre les composants nutritionnels des aliments et les maladies plus difficile à systématiser et à appliquer pratiquement. C’est pour cette raison qu’il devient urgent de développer un cadre intégrant des connaissances complètes et offrant des applications pratiques pour soutenir les requêtes liées à l’alimentation.
Origine de la recherche
Cet article est une recherche coécrite par Chengcheng Fu, Xueli Pan, Jieyu Wu, Junkai Cai, Zhisheng Huang, Frank Van Harmelen, Weizhong Zhao, Xingpeng Jiang et Tingting He. Les participants à cette recherche proviennent du Laboratoire clé d’intelligence artificielle et d’apprentissage intelligent de la province du Hubei, de la Faculté des sciences informatiques de l’Université normale de Chine centrale, et du Département d’informatique de la Vrije Universiteit Amsterdam. Certains auteurs appartiennent aussi à d’autres institutions comme le Centre de santé mentale de Pudong à Shanghai. Cet article a été accepté par l’IEEE Journal of Biomedical and Health Informatics et sera officiellement publié en 2023.
Processus de recherche
Cette recherche est principalement subdivisée en les parties suivantes : collecte de données, extraction de triplets, intégration et expansion des connaissances, ainsi que développement d’un système de réponse aux questions.
Collecte de données
Les chercheurs ont recherché des articles sur les aliments, la nutrition et les maladies humaines sur PubMed et ont collecté les titres et résumés de 230 573 articles publiés entre 2012 et 2022. Ces textes ont été traités avec la segmentation en mots et phrases de Stanford CoreNLP, générant ainsi des marqueurs de granularité plus fine.
Extraction de triplets
Reconnaissance de Concepts
Les chercheurs ont utilisé l’outil de reconnaissance de concepts (CI) proposé par le projet EURECA pour identifier et classifier les entités nutritionnelles et les entités de maladies dans le texte. Par exemple, le « diabète de type 2 » est identifié comme une entité de maladie et associé à diverses classifications. Grâce à la reconnaissance de concepts, 46 807 entités nutritionnelles et 47 749 entités de maladies ont été identifiées.
Extraction de Relations
Pour l’extraction des relations, les chercheurs ont utilisé le modèle BiolinkBERT pour l’entraînement et ont optimisé les paramètres du modèle pour garantir une extraction efficace des relations. Au final, le modèle a automatiquement extrait les relations d’un grand nombre de phrases, identifiant un total de 27 873 relations, couvrant 706 types de nutriments et 2 705 types de maladies.
Intégration et expansion des connaissances
Ils ont intégré des connaissances provenant de multiples sources comme le FD C (FoodData Center) et le KEGG (Kyoto Encyclopedia of Genes and Genomes). Ces connaissances ont été stockées à l’aide de l’outil de base de données graphique, GraphDB, et des règles prédéfinies de transitivité et de symétrie ont été appliquées pour étendre les connaissances. Le graphe de connaissances final construit contient environ 255 017 496 triplets, 154 relations sémantiques et 7 437 819 entités.
Développement du système de réponse aux questions
Conception des questions
Le système a conçu trois types de questions basées sur les trois thèmes clés de la recherche sur les aliments et la santé (analyse nutritionnelle, métabolisme nutritionnel, impact des aliments sur les maladies humaines) : questions descriptives, de comparaison et de cause. Chaque type de question a fourni un modèle interrogeable par SPARQL pour extraire des réponses du graphe de connaissances.
Jeu de données de référence
Le jeu de données de référence contient 120 questions couvrant trois grands groupes d’utilisateurs : les patients, les médecins et nutritionnistes, ainsi que les chercheurs. Les questions ont été soigneusement élaborées par des experts et des réponses standards ont été fournies. Ces questions ont été utilisées pour valider et évaluer l’efficacité du système.
Principaux résultats
Expériences comparatives
Les recherches, par une analyse comparative des performances des modèles BiolinkBERT, Biobert et BlueBERT, ont montré que BiolinkBERT performe mieux dans les tâches d’extraction de relations, avec une précision de 0,92, un rappel de 0,81, et un score F1 de 0,86.
Expériences d’interprétation
En calculant l’importance des nœuds nutritionnels dans le graphique de relations, les recherches ont révélé que l’acide folique et le saccharose sont d’une importance élevée parmi de nombreux nutriments.
Expériences d’ablation
Des expériences d’ablation ont été menées pour évaluer la contribution des différentes sources de connaissances au système de réponse aux questions. Les résultats ont montré que l’élimination des connaissances existantes réduit considérablement l’exactitude et d’autres indicateurs du système de réponse aux questions.
Discussion comparative
L’équipe de recherche a comparé son système de réponse aux questions avec ChatGPT et a constaté que son système affiche une meilleure précision et cohérence, bien qu’il nécessite des améliorations en termes de robustesse et d’explicabilité.
Évaluation de la qualité
À travers le cadre SHACL, des règles de contrainte ont été conçues pour évaluer la qualité structurelle des données du graphe de connaissances. Certaines erreurs de processus d’importation de données et des définitions de concepts incomplètes ont été découvertes, contribuant à l’amélioration future du graphe de connaissances.
Conclusion et signification
Cette recherche a développé un graphe de connaissances complet et constamment mis à jour sur la nutrition alimentaire et la santé humaine, réalisé grâce à l’extraction automatisée de triplets et à l’intégration des connaissances. Sur la base de ce graphe de connaissances, un système de réponse aux questions a été développé pour fournir des réponses précises à trois types de questions. Cinq expériences soigneusement conçues ont validé l’efficacité de cette méthode. En somme, cette recherche présente une méthode systématique pour construire un graphe de connaissances sur la nutrition alimentaire et la santé humaine, offrant un outil puissant pour les chercheurs, les cliniciens et les patients pour explorer la relation complexe entre l’alimentation et la santé.
Dans les futurs travaux de recherche, l’équipe prévoit de continuer à optimiser les modèles d’extraction de relations, intégrer des modèles linguistiques de grande envergure et des techniques d’apprentissage non supervisé, et élargir la classification des questions du système de réponse pour couvrir plus de types de questions. De plus, en introduisant des technologies avancées de compréhension du langage naturel, le but est d’améliorer l’adaptabilité et la réactivité du système.