Les signatures des dossiers de santé électroniques identifient les patients non diagnostiqués atteints de la maladie d'immunodéficience variable commune

Identification des patients non diagnostiqués atteints de formes courantes d’immunodéficience par les caractéristiques des dossiers de santé électroniques

Aperçu de l’étude

Johnson et al. ont récemment publié un article intitulé « Electronic health record signatures identify undiagnosed patients with common variable immunodeficiency disease » dans Science Translational Medicine. Cette étude utilise les dossiers de santé électroniques (EHR) et l’algorithme d’apprentissage automatique PheneT pour identifier les patients atteints de la déficience immunitaire variable commune (common variable immunodeficiency, CVID) non diagnostiqués, fournissant ainsi de nouvelles voies pour un diagnostic et un traitement plus précoces.

Contexte et objectif de l’étude

Les erreurs innées de l’immunité (inborn errors of immunity, IEI) chez l’humain incluent une série de déficits fonctionnels et quantitatifs en anticorps causés par un dysfonctionnement des cellules B, dont l’une des manifestations est la déficience immunitaire variable commune (CVID). La CVID est un groupe de maladies hautement hétérogènes avec des symptômes variés, incluant des infections, des maladies auto-immunes et inflammatoires, se superposant avec de nombreuses maladies courantes. En raison de sa rareté (environ 125000) et de la variabilité de son phénotype, le diagnostic et le traitement de la CVID sont souvent retardés, prenant en moyenne 5 à 15 ans depuis l’apparition des symptômes jusqu’au diagnostic. Cela augmente non seulement les souffrances des patients, mais également les coûts globaux du système de santé. Actuellement, la CVID n’a pas de cause unique reconnue et les tests génétiques ne peuvent pas fournir de diagnostic définitif. Il est donc urgent de trouver une méthode efficace pour raccourcir le délai de diagnostic de la CVID, permettant de diagnostiquer et de traiter ces patients plus tôt.

Origine de l’article

Cette étude, rédigée par Ruth Johnson, Alexis V. Stephens, Rachel Mester, et al. de l’UCLA, a été publiée dans le numéro du 1er mai 2024 de Science Translational Medicine.

Institutions de recherche

Les auteurs de cette étude proviennent de plusieurs institutions de recherche académique et médicale, notamment :

  • University of California, Los Angeles (UCLA)
  • University of California, Irvine (UCI)
  • University of California, San Diego (UCSD)
  • Vanderbilt University, Nashville, TN

Méthodes de recherche

Cette étude se concentre sur le développement d’un algorithme d’apprentissage automatique nommé PheneT pour identifier les patients atteints de CVID non diagnostiqués à partir des données EHR.

a) Processus de recherche

  1. Préparation des données :

    • Extraction d’environ 3200 candidats à partir du système EHR de l’UCLA avec des codes ICD associés à l’immunodéficience. Après examen manuel par des immunologistes cliniques, 197 patients répondant aux critères de la CVID ont été déterminés comme des cas «vrais» pour la construction du modèle.
  2. Sélection des caractéristiques :

    • Extraction des caractéristiques de ces cas, en utilisant les bases de données HPO (Ontology des Phénotypes Humains) et OMIM (Online Mendelian Inheritance in Man), pour mapper le phénotype clinique de la CVID aux Phecodes (codes phénotypiques), obtenant ainsi 34 Phecodes liés à la CVID.
    • Utilisation d’un ensemble de données d’entraînement comprenant des patients atteints de CVID pour améliorer la précision de la sélection des caractéristiques, en sélectionnant 44 Phecodes.
  3. Entraînement du modèle :

    • Utilisation de la régression logistique marginale pour entraîner les caractéristiques sélectionnées.
    • Le processus d’entraînement du modèle inclut le traitement d’équilibrage des données, avec une extension modérée de la taille de l’échantillon (ratio de sur-échantillonnage de 0,5).
    • Utilisation des résultats des tests de laboratoire IgG lors de la validation croisée en cinq volets pour optimiser le modèle et améliorer sa précision.
  4. Validation et application :

    • Validation externe sur plus de 6 millions d’enregistrements provenant de cinq systèmes médicaux différents (y compris l’UCLA), montrant que PheneT est applicable dans divers systèmes.
    • Dans les données EHR de l’UCLA, PheneT a pu diagnostiquer les patients atteints de CVID 244 jours (environ 8 mois) plus tôt.

b) Principaux résultats

  • Performance de PheneT :

    • PheneT surpasse les méthodes existantes, telles que Phers, améliorant les mesures de performance AUC-ROC et AUC-PR de 17% et 42% respectivement.
    • Le modèle PheneT identifie les patients atteints de CVID avec précision et efficacité en utilisant 65 caractéristiques.
  • Diagnostic précoce :

    • PheneT peut identifier des patients à haut risque de CVID plusieurs mois avant le diagnostic. L’étude montre que PheneT peut détecter la maladie en moyenne 244 jours avant le diagnostic final.
    • De plus, parmi les 100 patients avec les scores de risque les plus élevés, 74% ont été évalués comme potentiellement atteint de CVID, démontrant ainsi l’efficacité de PheneT.
  • Validation inter-institutionnelle :

    • PheneT a été appliqué aux données EHR des centres médicaux de l’Université de Californie et de Vanderbilt University, démontrant une robustesse et une applicabilité élevées de l’algorithme sur différents ensembles de données.

c) Conclusion et valeur de l’étude

  • Valeur scientifique :

    • Cette recherche démontre le potentiel énorme de l’apprentissage automatique dans le domaine médical, en particulier pour le diagnostic précoce de maladies rares.
    • Elle montre que l’utilisation de grandes données EHR pour l’apprentissage automatique peut réduire efficacement le temps de diagnostic des maladies rares, réduisant ainsi les souffrances des patients et le gaspillage des ressources médicales.
  • Valeur d’application :

    • PheneT fournit de nouvelles méthodes et outils pour le diagnostic clinique, aidant les médecins à identifier plus tôt les patients potentiellement atteints de CVID et à intervenir précocement, améliorant ainsi le pronostic des patients.
    • Les systèmes médicaux peuvent utiliser cet algorithme pour le dépistage à grande échelle, augmentant le taux d’identification des maladies rares et optimisant la répartition des ressources médicales.

d) Points forts de l’étude

  • Innovation :

    • L’algorithme PheneT combine l’apprentissage automatique et les données EHR à grande échelle, explorant des caractéristiques pathologiques complexes que les méthodes traditionnelles ne peuvent pas couvrir.
    • Le modèle de score de risque intégré pour la CVID améliore les méthodes existantes et a démontré une grande fiabilité lors de la validation inter-institutionnelle.
  • Impact clinique :

    • PheneT permet de réduire considérablement le délai de diagnostic de la CVID, économisant ainsi une grande quantité de ressources médicales et améliorant la qualité de vie et le pronostic des patients.

En analysant systématiquement les données EHR, l’algorithme PheneT montre un potentiel énorme pour le diagnostic des maladies rares complexes, offrant une référence précieuse pour les futures applications de l’IA en médecine.