Prédire les troubles futurs via des graphes de connaissances temporelles et des ontologies médicales

Prédire les maladies futures : Fusion des Graphes de Connaissances Temporels et des Ontologies Médicales

Les dossiers de santé électroniques (Electronic Health Records, EHRs) sont des outils indispensables dans les institutions médicales modernes. Ils contiennent les antécédents médicaux détaillés des patients, incluant les données démographiques, les médicaments, les résultats de laboratoire et les plans de traitement. Ces données peuvent non seulement améliorer la coordination et la cohésion des services de santé, mais aussi aider les prestataires de soins à identifier les tendances de santé et à prendre des décisions basées sur les données, augmentant ainsi la qualité globale des soins aux patients. Cependant, la plupart des données stockées dans les EHRs sont non structurées, en particulier les textes libres écrits par les cliniciens décrivant l’état de santé des patients, ce qui pose un défi majeur pour l’extraction et l’utilisation efficace de l’information.

Pour relever ce défi, de nombreuses recherches tentent d’extraire des informations pertinentes à partir des données non structurées grâce aux techniques de traitement du langage naturel (Natural Language Processing, NLP) et de les lier aux ontologies médicales. Dans les recherches récentes, les graphes de connaissances (Knowledge Graphs, KGs) ont montré leur potentiel dans l’intégration de différents types de données diverses provenant de diverses sources dans les systèmes de recommandation, la recherche d’information et le traitement du langage naturel, mais les graphes de connaissances statiques traditionnels ne peuvent pas décrire la dépendance temporelle et refléter efficacement les changements dynamiques de l’état de santé des patients.

Contexte et Objectifs de la Recherche

Cette recherche, écrite par Marco Postiglione, Daniel Bean, Zeljko Kraljevic, Richard JB Dobson et Vincenzo Moscato, a été publiée dans l’IEEE Journal of Biomedical and Health Informatics. L’équipe de recherche comprend des experts de l’Université de Naples Federico II et du King’s College London, qui ont mené une série de recherches pionnières dans le domaine.

Dans cette étude, les auteurs ont proposé un cadre de graphe de connaissances temporelles (Temporal Knowledge Graph, TKG) appelé MedTKG, qui intègre les informations historiques cliniques dynamiques des patients avec les informations statiques des ontologies médicales. L’objectif de la recherche est de prédire les maladies futures en identifiant les objets manquants dans les quadruplets (s, r, ?, t), où s et r représentent respectivement le patient et le type de relation maladie, et t est le timestamp de la requête. La recherche s’appuie sur les notes cliniques du jeu de données MIMIC-III pour valider l’efficacité de cette méthode dans la prédiction des maladies futures et montrer le rôle des ontologies médicales dans l’amélioration des performances du modèle.

Méthodes et Processus

Jeu de Données et Prétraitement

La recherche a utilisé le jeu de données MIMIC-III, développé par le MIT Lab for Computational Physiology, qui comprend des informations sur les patients des unités de soins intensifs du Beth Israel Deaconess Medical Center entre 2001 et 2012. Ce jeu de données inclut 46,520 patients et un total de 2,083,179 notes cliniques non structurées.

Pour extraire les concepts, l’équipe de recherche a utilisé l’outil MedCAT (Medical Concept Annotation Toolkit), qui peut identifier avec précision les concepts cliniques et les lier à l’ontologie SNOMED-CT grâce au dernier modèle d’apprentissage auto-supervisé. Ensuite, les données extraites ont été prétraitées en supprimant les maladies rares apparaissant moins de 100 fois et les concepts pouvant identifier les patients ; en conservant les concepts biomédicaux apparaissant au moins deux fois ; en supprimant les concepts parents partageant une relation “est un” avec les concepts déjà présents dans la chronologie ; en éliminant les concepts répétés dans la même journée ; et en excluant les historiques médicaux contenant moins de 10 concepts.

Ontologie Médicale et Graphe de Connaissances Temporelles

L’étude a établi une correspondance entre les concepts médicaux et leurs codes respectifs via l’ontologie SNOMED-CT, en identifiant et en analysant les relations directes (comme la relation “est un”) et les relations indirectes (comme le partage de concepts parents) entre les concepts. Les résultats montrent que l’utilisation de l’ontologie médicale et du graphe de connaissances temporelles améliore efficacement les performances du modèle de prédiction.

En termes de définition, l’historique médical est représenté comme une série de graphes de connaissances séquentiels (par exemple, mt = {g1,g2, … ,gt}), où t est la longueur de la séquence des graphes de connaissances. Chaque graphe de connaissances gt = ⟨v,r, et⟩ à timestamp t est un graphe hétérogène orienté, où v, r et et représentent respectivement les entités, les relations et les ensembles de faits à timestamp t. Le graphe de connaissances statique gs est un graphe de connaissances statique modélisant les connaissances intégrées dans l’ontologie médicale.

Conception et Architecture du Modèle

L’architecture du modèle MedTKG est illustrée à la Figure 2 et comprend principalement les éléments suivants :

  1. Module d’Entrée : À partir des textes libres des notes cliniques, les concepts cliniques pertinents sont d’abord extraits et liés à l’ontologie médicale via un outil de reconnaissance et de liaison des entités nommées (NER+L). Ensuite, ces concepts médicaux extraits sont représentés sous forme de graphes de connaissances séquentiels.

  2. Unité d’Évolution : Cette unité utilise un réseau de convolution de graphes (GCN) adaptatif aux relations pour capturer les relations structurelles dans le graphe de connaissances et modélise l’évolution temporelle des graphes de connaissances via une unité récurrente avec portes temporelles (GRU). De plus, pour assurer la conservation des caractéristiques statiques de l’ontologie médicale, une composante de contrainte du graphe statique introduit des conditions pour combiner les embeddings statiques des connaissances de l’ontologie médicale avec les embeddings évolutifs des entités.

  3. Fonction de Score et Fonction de Perte : La fonction de score calcule la probabilité conditionnelle des triplets candidats donnés l’historique médical mt, en utilisant ConvTransE comme décodeur. La fonction de perte consiste en la perte le pour la tâche de prédiction des entités et la perte ls pour les contraintes de l’ontologie médicale.

Expériences et Résultats

Jeu de Données et Statistiques de l’Ontologie Médicale

Les historiques médicaux ont été divisés en ensembles d’entraînement et de test de graphes de connaissances. L’ensemble d’entraînement représente 90%, tandis que les ensembles de validation et de test représentent chacun 5%. L’Annexe II fournit des détails statistiques sur le jeu de données généré par cette étude.

Métriques d’Évaluation

Plusieurs métriques d’évaluation ont été utilisées dans cette recherche, y compris le rang moyen inverse (MRR), le taux de réussite Top-k (Hits@k) et le taux de rappel moyen (MR@k). Les résultats montrent que MedTKG surpasse significativement les autres méthodes de référence en termes de taux de vraies positives et de taux de réussite, attestant de sa haute précision prédictive dans les environnements cliniques.

Conclusion et Perspectives Futures

Cette étude propose le cadre MedTKG, qui intègre avec succès les informations dynamiques des EHRs et les informations statiques des ontologies médicales, démontrant un avantage significatif dans la prédiction des maladies futures. Les futures directions de recherche incluent l’analyse approfondie de l’interprétabilité de MedTKG pour fournir des explications claires de ses prédictions et l’extension de la recherche pour inclure de nouveaux jeux de données et davantage de types d’événements médicaux. L’équipe de recherche prévoit également de valider l’efficacité de ce cadre dans les applications cliniques réelles via des essais cliniques.

En utilisant les graphes de connaissances temporels et les ontologies médicales, MedTKG fournit un puissant outil de modélisation pour le domaine médical, avec le potentiel d’améliorer la précision des décisions cliniques et, par conséquent, l’état de santé global des patients.