Réseau relationnel attentif hiérarchique aware des étapes pour la prédiction des diagnostics
Application du réseau relationnel attention hiérarchique dans la prédiction des diagnostics
Ces dernières années, les dossiers de santé électroniques (Electronic Health Records, EHR) sont devenus extrêmement précieux pour améliorer les décisions médicales, la détection des maladies en ligne et le suivi des patients. En parallèle, les approches basées sur l’apprentissage profond ont également connu un grand succès dans la prédiction des risques pour la santé et des diagnostics en utilisant les EHR. Cependant, les modèles d’apprentissage profond nécessitent généralement une grande quantité de données en raison du grand nombre de paramètres. De plus, les données EHR contiennent de nombreux codes médicaux rares, ce qui pose un grand défi pour les applications cliniques. Par conséquent, certaines recherches proposent d’utiliser une ontologie médicale pour améliorer la performance de prédiction et fournir des résultats interprétables. Cependant, ces ontologies médicales sont généralement de petite taille et de granularité grossière, manquant de nombreux diagnostics et concepts médicaux, sans parler des diverses relations entre ces concepts.
Pour surmonter cette limite, cet article propose d’intégrer un grand graphe de connaissances médicales existant (Knowledge Graph, KG) dans la prédiction des diagnostics, et de concevoir un modèle appelé HAR (Réseau Relationnel Attention Hiérarchique, Hierarchical Attentive Relational Network). Concrètement, pour chaque visite médicale, en extrayant un sous-KG personnalisé du KG médical existant, HAR effectue une transmission de messages spécifique aux relations et une agrégation hiérarchique des messages sur ce sous-KG pour affiner la représentation des nœuds correspondant aux codes médicaux de la visite. HAR prend en compte les stades spécifiques de progression des maladies du patient, ce qui participe au calcul de l’attention au niveau des relations et des nœuds. Des expériences étendues sur deux ensembles de données publiques montrent que HAR est efficace pour améliorer la précision des tâches de prédiction des diagnostics tant au niveau des visites qu’au niveau des codes.
Contexte de l’étude
Aujourd’hui, les dossiers de santé électroniques (EHR) sont devenus une technologie d’information médicale largement utilisée. Les données EHR représentent les visites médicales par ordre chronologique, chaque visite médicale contenant plusieurs codes médicaux représentant des diagnostics cliniques. Des études ont montré que ces données EHR peuvent non seulement améliorer l’efficacité des services médicaux, mais aussi être utilisées pour des tâches telles que l’extraction de concepts médicaux et la prédiction des maladies. En outre, les modèles d’apprentissage profond ont connu un grand succès dans les domaines de la vision par ordinateur, du traitement du langage naturel, des réseaux neuronaux graphiques et de l’exploration de données, et naturellement, de nombreuses approches basées sur l’apprentissage profond ont été proposées pour modéliser les données EHR. Ces méthodes nécessitent non seulement moins de prétraitement et d’ingénierie des caractéristiques, mais peuvent également offrir de meilleures performances.
Cependant, les modèles EHR basés sur l’apprentissage profond nécessitent généralement une grande quantité de données en raison du nombre élevé de paramètres. Par conséquent, lorsque la taille de l’ensemble de données d’entraînement est limitée, les performances sont souvent insatisfaisantes. De plus, une proportion considérable de codes médicaux dans les données EHR apparaissent rarement, ce qui rend difficile l’apprentissage de représentations précises pour ces codes médicaux rares. Dans ce cas, les chercheurs ont proposé d’introduire des connaissances médicales externes dans les modèles d’apprentissage profond pour améliorer leurs performances.
Par exemple, GRAM (Graph-based Attention Model) introduit une ontologie médicale appelée Clinical Classifications Software (CSS) dans le modèle d’apprentissage profond par le biais de l’attention neurale. Cependant, l’utilisation des ontologies médicales présente des avantages limités dans deux principaux aspects : d’une part, la plupart des ontologies médicales sont de taille réduite. Par exemple, le CSS ne contient que quelques centaines de concepts, la plupart des diagnostics n’ayant pas de concept correspondant ; d’autre part, une ontologie est essentiellement un arbre de classification des maladies, ne contenant pas les diverses relations entre les différentes maladies, et encore moins reflétant la progression des maladies. Par conséquent, nous proposons d’introduire le grand graphe de connaissances médicales existant SemMed (Semantic MEDLINE) dans la prédiction des diagnostics.
Bien que certaines études proposent également d’utiliser de grands graphes de connaissances médicales, elles ne tiennent pas compte des stades spécifiques des patients. Par exemple, un diagnostic de fièvre à différents stades peut refléter différents niveaux de gravité. Face à un patient consultant pour une fièvre, un médecin expérimenté adoptera des méthodes de traitement différentes en fonction des antécédents médicaux du patient.
Source de l’étude
Cet article a été rédigé par Liping Wang, Qiang Liu, Mengqi Zhang, Yaxuan Hu, Shu Wu et Liang Wang, et publié dans la revue IEEE Transactions on Knowledge and Data Engineering en avril 2024. Une partie de cette recherche a été soutenue par la Fondation nationale des sciences naturelles de Chine.
Méthodologie de la recherche
Le modèle HAR se compose de quatre parties principales : un module d’attention au niveau des relations sensible aux stades, un module d’attention au niveau des nœuds sensible aux stades, un module de transmission de messages spécifiques aux relations et un module d’agrégation hiérarchique des messages. Ce modèle est conçu comme un module générique et peut être utilisé en combinaison avec divers modèles de prédiction temporelle.
Extraction de graphes personnalisés
Pour chaque visite médicale, en extrayant des graphes personnalisés du grand graphe de connaissances médicales, le modèle effectue la transmission de messages spécifiques aux relations et l’agrégation hiérarchique des messages sur ces graphes personnalisés. Ces graphes personnalisés représentent les points de connaissances pertinents pour l’état actuel de la maladie du patient, évitant ainsi la transmission d’informations entre des nœuds sans rapport avec le patient.
Incorporation des codes médicaux
Il est crucial de transformer les codes médicaux discrets en représentations raisonnables et apprenantes. Cet article utilise une matrice d’incorporation paramétrée pour encoder les codes médicaux en vecteurs d’incorporation apprenables, en apprenant automatiquement les paramètres de la matrice de manière end-to-end.
Attention au niveau des relations et des nœuds sensible aux stades
Ce mécanisme prend en compte le stade de progression de la maladie du patient et attribue des poids différents pour chaque type de relation et nœud voisin. En combinant les vecteurs cachés du modèle de prédiction en aval, HAR attribue différents poids pour effectuer un calcul plus discriminant de l’attention au niveau des relations et des nœuds.
Transmission de messages spécifiques aux relations et agrégation hiérarchique des messages
Dans les graphes personnalisés, HAR transmet des informations des nœuds sources aux nœuds cibles, garantissant la diversité des types de relations et l’importance de la transmission des informations. Lors de l’agrégation des informations, une approche hiérarchique est adoptée, où les messages sont d’abord transmis et mis à jour entre les nœuds du même type de relation, avant d’être agrégés entre plusieurs relations, et finalement la représentation des nœuds obtenue est envoyée au modèle de prédiction en aval.
Entraînement end-to-end et combinaison avec des modèles de prédiction existants
Le modèle HAR est co-entrainé avec le modèle de prédiction existant P, avec pour objectif une tâche de classification multi-étiquette utilisant une fonction de perte d’entropie croisée. Par la méthode de la descente de gradient, les modèles HAR et P sont optimisés conjointement.
Résultats expérimentaux
Cet article valide l’efficacité de HAR par des expériences étendues sur deux ensembles de données publiques, MIMIC-III et MIMIC-IV. Les résultats montrent que HAR améliore à la fois la précision des prédictions au niveau des visites et au niveau des codes. De plus, une étude d’ablation valide la rationalité de l’architecture du modèle et l’importance de chaque composant pour l’amélioration globale des performances de HAR. Une étude de cas montre que les coefficients d’attention générés par HAR peuvent fournir une explication explicite des prédictions de diagnostic aux médecins.
Configuration expérimentale et ensembles de données
Dans les expériences, cet article choisit deux ensembles de données EHR disponibles publiquement, MIMIC-III et MIMIC-IV, qui contiennent les dossiers de santé des patients en soins intensifs. Les expériences se concentrent principalement sur les codes de diagnostic dans ces ensembles de données pour les tâches de prédiction. En outre, l’extension utilise le grand graphe de connaissances médicales SemMed, contenant plus de 150 000 entités et 64 types de relations.
Comparaison des performances
En comparant divers modèles de référence tels que LSTM, RETAIN, DIPLOE, RAIM, StageNet, et HiTANet, les résultats expérimentaux montrent que les modèles intégrant HAR présentent des performances exceptionnelles tant au niveau des visites qu’au niveau des codes, en particulier dans le traitement des maladies rares et des petits ensembles de données, où l’amélioration du modèle HAR est plus significative.
Études d’ablation
Par des études d’ablation, les résultats expérimentaux valident la nécessité des mécanismes d’attention au niveau des relations et des nœuds sensibles aux stades pour améliorer les performances du modèle et évaluent l’effet de différents mécanismes d’attention.
Analyse de sensibilité
L’analyse de sensibilité des hyperparamètres λ montre que HAR peut maintenir une certaine robustesse dans une plage de [0, 0.9], ce qui reflète l’efficacité des connaissances médicales externes dans le modèle.
Interprétabilité du modèle
Des études de cas montrent qu’en analysant les coefficients d’attention générés par HAR, il est possible de révéler les relations entre différents symptômes de maladies, fournissant ainsi une explication explicite aux cliniciens.
Conclusion
Le modèle HAR proposé dans cet article surmonte efficacement les défis posés par les modèles de prédiction des diagnostics actuels en termes de quantité de données et de codes médicaux rares, en introduisant un grand graphe de connaissances médicales dans la prédiction des diagnostics et en réalisant une amélioration significative des performances. Par des recherches plus approfondies, le modèle HAR montre également une bonne interprétabilité, offrant un soutien précieux pour une application clinique réelle.