L'utilité de GPT-4 dans l'évaluation des radiographies thoraciques

Le potentiel de GPT-4 dans l’évaluation des radiographies thoraciques : une étude rétrospective

Contexte académique

Ces dernières années, l’intelligence artificielle (IA) a trouvé des applications de plus en plus variées dans le domaine médical, en particulier en radiologie. L’introduction d’outils d’IA transforme la pratique clinique, notamment dans le diagnostic par imagerie. Cependant, l’adoption généralisée de ces outils fait face à de nombreux défis, notamment le manque de financement, l’intégration inefficace des technologies de l’information (IT) et les lacunes en matière de validation. De plus, les professionnels de la santé, en particulier les radiologues, manquent souvent de connaissances statistiques suffisantes, ce qui entrave leur compréhension et leur utilisation approfondie des outils d’IA. Alors que la recherche en radiologie repose de plus en plus sur des techniques pilotées par les données, les radiologues doivent être capables d’évaluer de manière critique les méthodes statistiques et leurs limites.

Les grands modèles de langage (LLMs), comme GPT-4 d’OpenAI, sont de plus en plus reconnus en radiologie pour leur capacité à comprendre le langage naturel, à raisonner et à interpréter des informations complexes. L’extension Advanced Data Analysis (ADA) de GPT-4 lui permet d’analyser des données, de résoudre des problèmes mathématiques, de créer des graphiques, et d’écrire et exécuter du code. Cependant, le potentiel de GPT-4 ADA en radiologie clinique et académique n’a pas encore été pleinement exploré. Cette étude vise à valider si GPT-4 ADA peut être utilisé pour diverses tâches d’analyse sans expertise spécifique en statistiques et en apprentissage automatique (ML), en particulier dans l’évaluation des radiographies thoraciques.

Source de l’article

Cet article a été co-écrit par le Dr Soroosh Tayebi Arasteh, le Dr Robert Siepmann, le Dr Marc Huppertz, Mahshad Lotfinia (MSc), le Dr Behrus Puladi, le Dr Christiane Kuhl, le Dr Daniel Truhn et le Dr Sven Nebelung. Les auteurs sont affiliés au département de radiologie diagnostique et interventionnelle, au département de chirurgie orale et maxillo-faciale et à l’institut d’informatique médicale de l’hôpital universitaire de RWTH Aachen en Allemagne. L’article a été publié en novembre 2024 dans la revue Radiology.

Processus de recherche

Sujets et données

Cette étude rétrospective a utilisé des rapports de radiographies thoraciques au chevet, des données démographiques associées et des marqueurs de laboratoire d’inflammation provenant de patients en unité de soins intensifs (USI) entre janvier 2009 et décembre 2019. Les données proviennent de la base de données locale de l’hôpital universitaire de RWTH Aachen et comprennent 193 566 radiographies thoraciques au chevet et leurs rapports ainsi que les valeurs de laboratoire de 45 016 patients. Pour simplifier l’analyse et éviter les biais d’échantillonnage, seul le premier rapport de radiographie disponible pour chaque patient a été inclus.

Processus de recherche

  1. Visualisation des données : GPT-4 ADA a été chargé de tracer les taux d’utilisation des radiographies thoraciques en fonction des années et les distributions des valeurs de laboratoire.
  2. Analyse statistique de base : GPT-4 ADA a été chargé de résumer et de quantifier la gravité des opacités pulmonaires en fonction de l’âge et du sexe.
  3. Analyse statistique avancée : GPT-4 ADA a été chargé de quantifier les variables déterminant la présence d’opacités pulmonaires via une régression logistique binaire.
  4. Modélisation en apprentissage automatique : GPT-4 ADA a été chargé de construire deux modèles d’IA avancés, l’un utilisant toutes les variables disponibles et l’autre excluant la protéine C-réactive (CRP), le nombre de globules blancs ou la procalcitonine, pour prédire la présence d’opacités pulmonaires.

Stratégie de validation

L’équipe de recherche a validé les sorties de GPT-4 ADA à travers un processus en plusieurs étapes, incluant une évaluation de la reproductibilité, une vérification méthodologique, une évaluation de la qualité du code et une réexécution du code. De plus, une comparaison tête-à-tête a été effectuée entre les modèles générés par GPT-4 ADA et des modèles de référence développés manuellement.

Résultats principaux

Visualisation des données

GPT-4 ADA a réussi à tracer les taux d’utilisation des radiographies thoraciques en fonction des années et les distributions des valeurs de laboratoire, répondant aux standards scientifiques visuels. Cependant, GPT-4 ADA n’a pas annoté les lignes de tendance ou les valeurs aberrantes dans les graphiques, et il y avait des incohérences dans le style et les couleurs des sorties.

Analyse statistique de base

GPT-4 ADA a correctement résumé la gravité des opacités pulmonaires en fonction de l’âge et du sexe, mais a utilisé des mesures de tendance centrale plutôt que des comptes de fréquence pour les variables ordinales, et n’a pas distingué les opacités pulmonaires gauche et droite.

Analyse statistique avancée

GPT-4 ADA a quantifié les variables déterminant la présence d’opacités pulmonaires via une régression logistique binaire, fournissant les coefficients et les valeurs p pour chaque variable. La fiabilité test-retest était bonne, mais il y avait de légères déviations par rapport aux résultats de référence manuels. GPT-4 ADA a utilisé l’imputation médiane pour les valeurs manquantes, mais a rencontré des problèmes avec les variables catégorielles.

Modélisation en apprentissage automatique

GPT-4 ADA a réussi à construire deux modèles prédictifs, l’un utilisant toutes les variables disponibles et l’autre excluant les valeurs de laboratoire. Les valeurs AUC des deux modèles étaient respectivement de 0,76 et 0,75, avec une précision de 72 % pour les deux. Dans la comparaison tête-à-tête, les modèles générés par GPT-4 ADA ont montré des performances similaires en termes d’AUC et de précision par rapport aux modèles de référence développés manuellement, mais il y avait des différences significatives en termes de sensibilité et de spécificité.

Conclusion

Cette étude montre que les grands modèles de langage (comme GPT-4 ADA) ont un potentiel dans l’analyse de données complexes en radiologie, allant des statistiques de base à la modélisation avancée en apprentissage automatique. Bien que GPT-4 ADA ait montré des performances solides avec des ensembles de données cliniques réels, il reste confronté à des défis liés à la complexité statistique (comme l’imputation de données), nécessitant une supervision statistique rigoureuse. Les LLMs devraient compléter, et non remplacer, l’expertise professionnelle.

Points forts de l’étude

  • Découverte clé : GPT-4 ADA est capable d’exécuter de manière autonome des tâches complexes d’analyse de données, y compris la visualisation des données, l’analyse statistique et la modélisation en apprentissage automatique, avec des performances comparables à celles des modèles développés manuellement.
  • Innovation méthodologique : Cette étude est la première à valider le potentiel de GPT-4 ADA en radiologie, en particulier dans des contextes où aucune expertise spécifique en statistiques ou en apprentissage automatique n’est requise.
  • Valeur pratique : L’utilisation de GPT-4 ADA peut simplifier les flux de travail d’analyse de données complexes pour les radiologues, les cliniciens et les chercheurs, favorisant des stratégies de recherche centrées sur le patient.

Autres informations utiles

Les limites de cette étude incluent l’inclusion d’un seul rapport de radiographie par patient, l’absence de résolution de l’impact des prompts sur les performances des LLMs, et le fait que l’imputation de données peut introduire des biais. Les recherches futures devront évaluer davantage la généralisabilité, la robustesse, l’interprétabilité, l’intégration dans les flux de travail et l’impact clinique des LLMs en radiologie.