Les antécédents médicaux prédisent l'apparition d'une maladie à l'échelle du phénotype et permettent une réponse rapide aux menaces sanitaires émergentes

Prévision des maladies courantes à l’aide de dossiers médicaux et soutien à la réponse rapide aux menaces sanitaires émergentes

Contexte et motivation de la recherche

La pandémie de COVID-19 a mis en évidence un manque systématique et de données guidées par les données au niveau mondial, ce qui a gravement affecté l’identification des populations à haut risque et la préparation aux épidémies. L’évaluation du risque de maladies futures chez les individus est cruciale pour orienter les interventions préventives, la détection précoce des maladies et le démarrage des traitements. Cependant, pour les maladies courantes, seuls quelques scores de risque personnalisés existent, laissant les prestataires de soins de santé et les individus sans guidance pour la plupart des maladies pertinentes. Même dans les cas où des scores de risque existent, un consensus sur le score à utiliser ou les mesures physiologiques et de laboratoire associées est souvent absent, ce qui entraîne une fragmentation considérable des pratiques médicales. Notamment, au début de la pandémie de COVID-19, en raison du manque de données disponibles, les scores de risque pour identifier les populations vulnérables n’étaient pas utilisables.

Par ailleurs, la majorité des décisions médicales, comprenant le diagnostic, le traitement et la prévention des maladies, se basent sur l’historique médical des individus. Avec la numérisation, ces informations sont désormais collectées par les prestataires de soins de santé, les compagnies d’assurances et les gouvernements sous forme de dossiers de santé électroniques, mais, en raison des capacités limitées des humains à traiter et comprendre de vastes quantités de données, le potentiel de ces dossiers facilement disponibles pour améliorer les décisions médicales reste encore largement inexploité.

Dans les recherches actuelles, les dossiers de santé électroniques sont utilisés pour orienter les décisions cliniques, ainsi que pour mener des études étiologiques, diagnostiques et pronostiques. Malgré certains efforts visant à combiner des prédicteurs cliniques connus avec de nouvelles méthodes, ou à exploiter d’autres formes de données telles que les notes cliniques, peu de recherches ont exploré le potentiel de prédiction dans l’ensemble du spectre des phénomènes de santé courants. Ainsi, le potentiel de l’utilisation systématique des dossiers de santé collectés de manière routinière pour guider les décisions médicales reste sous-exploité.

Origine de la recherche

Cette étude a été rédigée par Jakob Steinfeldt, Benjamin Wild, Thore Buergel, Maik Pietzner, Julius Upmeier Zu Belzen, Andre Vauvelle, Stefan Hegselmann, Spiros Denaxas, Harry Hemingway, Claudia Langenberg, Ulf Landmesser, John Deanfield et Roland Eils. Les auteurs proviennent de plusieurs institutions de renom situées en Allemagne, au Royaume-Uni et aux États-Unis. L’article a été publié en 2024 dans le journal « Nature Communications ».

Processus de recherche

Collecte et description des données

Cette recherche s’appuie sur la UK Biobank (Banque de données biomédicales britannique) et sur la cohorte « All of Us ». La UK Biobank comprend 502 460 individus sains principalement d’origine britannique, avec un âge médian de 58 ans, dont 54,4 % de femmes. Les individus ont été recrutés entre 2006 et 2010, avec un suivi médian de 12,6 ans. L’étude a examiné les points finaux dans une gamme de 1883 phénomènes et a utilisé ces données pour développer et valider des modèles. La cohorte All of Us comprend 229 830 individus issus de populations diversifiées aux États-Unis, avec un âge médian de 54 ans, dont 61,1 % de femmes. Cette cohorte a commencé à recruter en 2019, avec un suivi médian de 3,5 ans.

Développement et validation des modèles

L’étude a utilisé un modèle de réseau neuronal pour explorer l’ensemble de l’historique médical des individus afin de prédire le risque de multiples maladies. Un réseau neuronal multicouche perceptron a été développé, entraîné et validé sur la cohorte de la UK Biobank, pour estimer le risque de maladies à partir des dossiers de santé collectés de manière routinière. Contrairement aux méthodes traditionnelles telles que les modèles linéaires ou les arbres de survie qui nécessitent la construction de modèles séparés pour chaque maladie, cette méthode prédit simultanément plusieurs points finaux via un seul réseau neuronal, simplifiant ainsi considérablement la structure du modèle.

Pour confirmer l’universalité de ces modèles, des validations externes ont été réalisées sur la cohorte All of Us, vérifiant la performance des modèles dans différents systèmes de soins de santé et parmi des populations diverses. De plus, l’étude a exploré l’application de cette méthode à la prévention des maladies cardiovasculaires et aux menaces sanitaires émergentes telles que la COVID-19 (réinfection, mortalité toutes causes confondues).

Intégration et analyse des données

Avant d’effectuer des analyses supplémentaires, toutes les dossiers de santé ont été mappés sur le vocabulaire OMOP. L’étude a révélé que les domaines d’enregistrement principaux sont les médicaments et les observations, suivis des conditions, des procédures et des équipements. Les concepts très rares ont été exclus, conservant 15 595 concepts uniques, et un perceptron multicouche multitâche (88,4 millions de paramètres) a simultanément prédit la survenue de phénomènes pour 1883 points finaux, en comparaison avec un modèle linéaire de référence.

État de risque et survenue des événements

Pour évaluer si les dossiers de santé peuvent être utilisés pour identifier les populations à haut risque, l’étude a analysé la relation entre l’état de risque estimé par le réseau neuronal et le risque futur de maladie pour chaque point final. Les résultats ont montré que, pour la grande majorité des points finaux, il existe une différence significative dans les taux de survenue des événements entre les 10 % d’individus présentant le risque le plus élevé et les 10 % présentant le risque le plus faible. Ce phénomène est observé à travers diverses catégories de maladies et étiologies, y compris l’arthrite rhumatoïde, la cardiopathie ischémique et la bronchopneumopathie chronique obstructive.

Résultats de l’étude

Performance des modèles

L’étude a révélé que pour 1774 (94,2 %) des points finaux, le modèle basé sur l’historique médical était significativement supérieur au modèle de référence basé uniquement sur l’âge et le sexe. Particulièrement pour les maladies courantes et les affections à forte charge sociale, le modèle a excellé dans la distinction entre individus à haut risque et à faible risque.

Validation externe

La validation externe réalisée sur la cohorte All of Us a montré que pour 1347 (85,9 %) des points finaux, le modèle basé sur l’historique médical était également significativement supérieur au modèle de référence. Cela démontre que le modèle de prédiction du risque basé sur l’historique médical présente une bonne universalité dans différents systèmes de soins de santé et parmi des populations diversifiées.

Prévention des maladies et réponse aux menaces sanitaires émergentes

L’étude a en outre démontré le potentiel de cette méthode dans la prévention des maladies cardiovasculaires et la réponse aux menaces sanitaires émergentes telles que la COVID-19. Le modèle de prédiction du risque basé sur l’historique médical peut aider à identifier les populations à haut risque dès les premières phases, optimisant ainsi les stratégies de prévention et de traitement.

Conclusion

Cette étude a prouvé le potentiel d’utiliser systématiquement les dossiers de santé routiniers pour évaluer le risque de maladies dans un large éventail de phénomènes. Ces états de risque peuvent être utilisés pour répondre rapidement aux menaces sanitaires émergentes telles que la COVID-19. Les résultats suggèrent que cette méthode a non seulement une valeur scientifique mais aussi un large potentiel d’application dans la pratique médicale.

Points saillants de la recherche

  1. Nouvelle approche : Utilisation d’un réseau neuronal pour simultanément prédire plusieurs points finaux, simplifiant ainsi la structure du modèle.
  2. Applicabilité étendue : Performances exceptionnelles du modèle à travers différents systèmes de soins de santé et populations diversifiées.
  3. Signification pratique : Le modèle peut être utilisé pour la prévention des maladies cardiovasculaires et la réponse aux menaces sanitaires émergentes telles que la COVID-19.

Cette étude illustre comment les données déjà collectées peuvent être utilisées pour améliorer les pratiques cliniques, orienter les interventions préventives, et favoriser le diagnostic et le traitement précoces des maladies, offrant ainsi de nouvelles perspectives pour la gestion de la santé à grande échelle.