Classificateur de l'AVC : Classification de l'étiologie de l'accident vasculaire cérébral ischémique par modélisation par consensus d'ensemble utilisant des dossiers de santé électroniques
StrokeClassifier : Un outil d’intelligence artificielle pour la classification étiologique des AVC ischémiques basé sur les dossiers de santé électroniques
Contexte du projet et motivation de la recherche
La reconnaissance de l’étiologie des accidents vasculaires cérébraux (notamment les accidents ischémiques aigus, AIS) est cruciale pour la prévention secondaire, mais le diagnostic est souvent très difficile. Aux États-Unis, chaque année, il y a près de 676 000 nouveaux cas d’AVC ischémique, dont un quart ont déjà eu un AVC. Ce type de pathologie présente un taux de récidive élevé, pouvant même entraîner la mort ou un handicap supplémentaire. Les causes de l’AVC ischémique peuvent être variées, y compris l’athérosclérose des grandes artères, l’embolie cardiaque, la maladie des petits vaisseaux et d’autres causes rares. Cependant, environ 20-30% des patients atteints d’AVC ischémique aux États-Unis ont une cause indéterminée après évaluation, classée comme AVC cryptogénique. Ces patients présentent un risque particulièrement élevé de récidive. Par conséquent, identifier avec précision la cause des AVC cryptogéniques est crucial pour optimiser les protocoles de traitement et améliorer le pronostic des patients. Un diagnostic précis nécessite une intégration de nombreuses données, y compris les antécédents cliniques, les résultats d’examen physique, les données de laboratoire, la surveillance cardiaque et les examens d’imagerie. En raison de la pénurie de nouveaux spécialistes en vasculature, la capacité à diagnostiquer peut être limitée. Les auteurs de cet article ont tenté de développer un outil automatisé d’intelligence artificielle basé sur les dossiers de santé électroniques (DSE), visant à classifier les causes des AVC pour améliorer la précision et la cohérence du diagnostic.
Informations sur l’article et les auteurs
L’étude est intitulée “StrokeClassifier: Ischemic stroke etiology classification by ensemble consensus modeling using electronic health records”, rédigée par Ho-Joon Lee, Lee H. Schwamm, Lauren H. Sansing, Hooman Kamel, Adam De Havenon, Ashby C. Turner, Kevin N. Sheth, Smita Krishnaswamy, Cynthia Brandt, Hongyu Zhao, Harlan Krumholz et Richa Sharma. L’article a été publié dans la revue “NPJ Digital Medicine” et est disponible dans un numéro spécial en collaboration avec l’hôpital Bundang de l’Université nationale de Séoul.
Processus de recherche et méthodes
Sujets de l’étude et sources de données
L’étude a utilisé les données textuelles des DSE de 2039 patients atteints d’AIS non cryptogénique de deux hôpitaux académiques pour développer et valider un outil de classification automatisé appelé StrokeClassifier. En outre, 406 rapports de résumés de congés du dataset MIMIC-III ont été validés de manière externe par un neurologiste vasculaire. La recherche a utilisé des techniques de traitement du langage naturel (NLP) pour extraire des caractéristiques des textes de résumés de congés, générant un modèle de méta-consensus composé de neuf classificateurs d’apprentissage automatique. En comparant les résultats de diagnostic du neurologiste vasculaire, StrokeClassifier a atteint une précision moyenne de validation croisée de 0,74 et un F1 pondéré de 0,74 dans des tâches de classification multiclasse. Dans le dataset MIMIC-III, les taux de précision et de F1 pondérés étaient respectivement de 0,70 et 0.71. Les cinq caractéristiques les plus importantes comprenaient la fibrillation auriculaire, l’âge, l’occlusion de l’artère cérébrale moyenne, l’occlusion de l’artère carotide interne et la localisation de l’AVC dans le lobe frontal. En utilisant une méthode heuristique déterminée, les chercheurs ont classifié 788 patients atteints d’AVC cryptogénique, réduisant le taux de diagnostic cryptogénique de 25,2% à 7,2%.
Développement des algorithmes et des modèles
Des échantillons d’étude comprenant 3 262 résumés de décharges avec un diagnostic d’AIS ont été constitués, provenant respectivement de YNHH, MGH et BIDMC. Les caractéristiques extraites comprenaient les antécédents médicaux, l’imagerie, les données cardiaques, les données de laboratoire et les identifiants uniques des concepts UMLS (CUI). Plusieurs algorithmes d’apprentissage automatique ont été utilisés pour l’entraînement du modèle, y compris la régression logistique, les machines à vecteurs de support, les forêts aléatoires et XGBoost, et leurs hyperparamètres ont été optimisés. Parmi les 2 039 échantillons d’AVC non cryptogénique, des techniques de prétraitement ont été appliquées, en utilisant Metamap comme entrée pour le développement du modèle, et le MICE pour l’imputation des caractéristiques dans l’échantillon dérivé, en utilisant une imputation basée sur les forêts aléatoires pour le corpus de validation externe. Principalement, l’analyse en composantes principales (PCA) a été utilisée pour améliorer la réduction dimensionnelle des données, et les dix principales caractéristiques ont été sélectionnées pour chaque classe de développement de modèle ultérieur. Finalement, le “StrokeClassifier” s’est avéré être une classification de méta-consensus en utilisant des modèles à objectifs multiples.
Résultats de la recherche
StrokeClassifier a été évalué pour des tâches de classification multiclasse et comparé en termes de précision et de performances de modèle. Les résultats ont montré que les modèles basés sur la régression logistique (LR), les machines à vecteurs de support (SVC), XGBoost (XGB) et les forêts aléatoires (RF) optimisés présentaient des taux élevés de validation croisée et des scores F1. StrokeClassifier a montré une performance prédictive supérieure lors de la validation externe comparée aux modèles individuels de base. Le modèle de consensus a amélioré la robustesse et la généralisation des sorties de modèle par une certaine réduction de biais. Comparé aux résultats de diagnostic fournis par le neurologiste vasculaire, StrokeClassifier a atteint une précision moyenne de 0,744 pour la prédiction des causes d’AVC non cryptogénique multiclasse, une précision équilibrée de 0,710 et un F1 pondéré de 0,740, ce qui correspondait généralement aux résultats des jugements du neurologiste.
Après 300 répétitions de validation croisée à plusieurs niveaux, la performance et la généralisabilité du modèle ont été davantage validées. L’analyse de sous-groupes en fonction de l’âge, du sexe et de la race a montré que StrokeClassifier pouvait s’adapter efficacement à différents contextes cliniques dans diverses catégories expérimentales.
Pour les échantillons de mauvaise classification (Misclassification), l’étude a analysé plus en détail la fréquence des caractéristiques, garantissant que le modèle pourrait traiter correctement les erreurs potentielles dans des données similaires futures, illustrant des résultats de validation étendus pour les neuf modèles de base. Pour les patients atteints d’AVC cryptogénique d’étiologie Toast spécifique, une heuristique déterminée spécifique a été appliquée pour une classification ultérieure, prouvant la grande performance de cet outil dans des tâches de classification multiclasse et dans le corpus de validation externe.
Conclusions et pertinence de la recherche
L’étude a démontré l’efficacité et la précision élevées de StrokeClassifier en tant qu’outil automatisé d’apprentissage automatique pour la classification étiologique des AVC ischémiques, comparable au niveau de diagnostic des neurologues vasculaires. Après un entraînement et une application clinique plus poussés, StrokeClassifier pourrait servir de système de soutien à la décision clinique, améliorer significativement l’exactitude des diagnostics étiologiques des AVC, promouvoir la mise en œuvre rapide de traitements spécifiques aux causes, et renforcer les avancées en recherche clinique et en santé publique.
Avec l’entrée des données textuelles des DSE, StrokeClassifier permet de classifier les causes des AVC de manière automatisée et en temps réel, ouvrant de larges perspectives d’application. Il peut être utilisé pour des tâches d’analyse combinée de données complexes dans les systèmes de santé, particulièrement dans des environnements médicaux manquant de connaissances spécialisées, améliorant la cohérence et la précision des diagnostics, et favorisant la standardisation de processus de soins efficients.
L’étude a fourni une base solide au travers d’analyses détaillées de données et d’optimisation de modèles pour les futures recherches, et son application dans plusieurs domaines cliniques et épidémiologiques apportera des progrès constants dans la prévention des AVC et des bénéfices cliniques durables.