Évaluation quantitative des capacités multimodales et multianatomiques de GPT-4V en radiologie

Modèles de langage visuel de grande envergure en radiologie : Évaluation quantitative des capacités multimodales et multianatomiques de GPT-4V

Contexte académique

Ces dernières années, les modèles de langage de grande envergure (Large Language Models, LLMs) tels que ChatGPT d’OpenAI ont réalisé des progrès significatifs dans le domaine de la génération de texte. Ces modèles, basés sur l’architecture Transformer et entraînés sur des quantités massives de données textuelles, sont capables de produire des sorties textuelles crédibles sans nécessiter de nombreux exemples (apprentissage few-shot et zero-shot). Les LLMs trouvent également des applications croissantes dans le domaine médical, par exemple en transformant des rapports radiologiques en texte libre en modèles standardisés ou en extrayant des données à partir de rapports CT sur le cancer du poumon. De plus, les performances des LLMs dans les examens radiologiques ont montré qu’ils possèdent une certaine “connaissance” et peuvent aider à simplifier les rapports radiologiques.

Avec l’introduction de GPT-4V (GPT-4 with Vision), le modèle est désormais capable de traiter non seulement du texte, mais aussi des entrées visuelles. Ces modèles de langage visuel de grande envergure (Large Vision-Language Models, LVLMs) pourraient devenir des modèles de base (Foundation Models) applicables à une variété de tâches. Bien que des études aient montré que GPT-4V excelle dans la génération de rapports radiologiques à partir d’images médicales uniques, elles ont également souligné les limites du modèle, en particulier les incohérences dans l’interprétation des images radiologiques. Néanmoins, l’utilisation généralisée de ces modèles comporte également des risques potentiels, notamment dans des applications non autorisées.

Compte tenu du potentiel et des risques associés à GPT-4V, une analyse approfondie est essentielle. Cependant, la littérature évaluée par les pairs sur GPT-4V reste rare. Par conséquent, cette étude vise à évaluer quantitativement les performances de GPT-4V dans l’interprétation d’images radiologiques, en particulier son exactitude lors du traitement de données inédites.

Source de l’article

Cet article a été rédigé par Quirin D. Strotzer, Felix Nieberle, Laura S. Kupke et al., issus de l’Institut de radiologie du centre médical universitaire de Regensburg en Allemagne, du département de neuroradiologie du Massachusetts General Hospital de la Harvard Medical School, entre autres institutions. L’article a été publié en novembre 2024 dans la revue Radiology.

Processus de recherche

Acquisition des données

Cette étude rétrospective a inclus des images représentatives uniques anormales et de contrôle sain provenant de la neuroradiologie, de la radiologie cardiothoracique et de la radiologie musculosquelettique (CT, IRM, radiographie). Les rapports ont été générés via l’API d’OpenAI, et l’exactitude factuelle des rapports en texte libre ainsi que les performances dans la détection d’anomalies dans des tâches de classification binaire ont été évaluées. Les performances de GPT-4V ont été comparées à celles d’un médecin non radiologue en formation et de quatre radiologues certifiés.

Méthodes expérimentales

L’étude a sélectionné des découvertes pathologiques courantes et des modalités d’imagerie, notamment la neuroradiologie (accident vasculaire cérébral ischémique, hémorragie cérébrale, tumeur cérébrale, sclérose en plaques), la radiologie cardiothoracique (pneumothorax, embolie pulmonaire, pneumonie, cancer du poumon) et la radiologie musculosquelettique (fracture). Chaque catégorie comprenait au moins 25 images, qui ont été extraites des systèmes d’information radiologique des hôpitaux et confirmées manuellement à l’aide de toutes les informations disponibles (rapports de scan, imagerie de suivi et dossiers médicaux).

Conception des tâches

  1. Génération de rapports en texte libre : Étant donné une image, le modèle a été invité à générer un rapport radiologique, incluant la modalité d’imagerie, la région anatomique, la principale découverte pathologique aiguë et sa localisation, le diagnostic le plus probable et les cinq diagnostics différentiels les plus probables. L’exactitude des rapports a été évaluée par annotation manuelle.
  2. Test de cohérence : 25 images ont été sélectionnées au hasard, et le modèle a généré trois rapports pour évaluer la variabilité des sorties du modèle.
  3. Tâche de classification : Une tâche de classification binaire a été mise en place pour comparer les performances du modèle à celles des lecteurs humains dans la détection d’anomalies. Le modèle a été invité à répondre par “oui” ou “non” et à fournir une brève description.

Analyse statistique

Toutes les évaluations ont été effectuées de manière binaire, et l’exactitude, la sensibilité et la spécificité des rapports en texte libre ont été calculées. La cohérence entre les lecteurs humains a été évaluée à l’aide du test de cohérence aléatoire et de la statistique κ de Cohen.

Résultats principaux

Résultats généraux

L’étude a inclus 515 images provenant de 470 patients (âge médian de 61 ans). GPT-4V a correctement identifié la modalité d’imagerie dans toutes les images, et la précision de l’identification de la région anatomique était de 99,2 %. Dans les rapports en texte libre, l’exactitude du diagnostic variait selon la découverte pathologique et la modalité d’imagerie, par exemple, l’exactitude du diagnostic de pneumothorax était de 0 %, tandis que celle des tumeurs cérébrales était de 90 %. Dans les tâches de classification binaire, la sensibilité de GPT-4V variait entre 56 % et 100 %, et la spécificité entre 8 % et 52 %, montrant une tendance claire à surdiagnostiquer.

Résultats des rapports en texte libre

Le modèle a excellé dans l’identification de la modalité d’imagerie et de la région anatomique, mais a moins bien performé dans l’identification des principales découvertes pathologiques et des diagnostics. Par exemple, le modèle n’a pas réussi à identifier tous les cas de pneumothorax, mais a bien performé dans le diagnostic des tumeurs cérébrales. Le modèle a également eu des difficultés à identifier les images normales, en particulier dans les images CT.

Résultats des tâches de classification

GPT-4V a montré des performances médiocres dans les tâches de classification binaire, avec une exactitude globale légèrement supérieure au hasard (55,3 %). En comparaison, les lecteurs humains ont largement surpassé le modèle, atteignant une cohérence presque parfaite dans toutes les tâches.

Conclusion

GPT-4V, dans sa version initiale, a été capable d’identifier de manière fiable la modalité d’imagerie et la région anatomique des images médicales, mais ses performances dans la détection, la classification ou l’exclusion des anomalies restent insuffisantes. Bien que les rapports générés par le modèle semblent convaincants, leur fiabilité dans l’interprétation des images médicales est limitée. Néanmoins, les modèles de langage visuel de grande envergure présentent un potentiel en tant que modèles de base en radiologie. Les recherches futures devraient se concentrer sur l’optimisation du modèle, en particulier dans le traitement des données médicales tridimensionnelles et dans l’adaptation à des domaines spécifiques.

Points forts de l’étude

  1. Innovation : Cette étude est la première à évaluer quantitativement les performances de GPT-4V dans l’interprétation d’images radiologiques, comblant une lacune dans ce domaine.
  2. Étendue : L’étude couvre plusieurs régions anatomiques et modalités d’imagerie, fournissant une évaluation complète des performances.
  3. Pertinence pratique : Les résultats de l’étude ont des implications importantes pour le développement futur de modèles d’analyse d’images médicales, en particulier dans l’optimisation des modèles et leurs applications cliniques.

Signification de l’étude

Cette étude fournit une référence importante pour l’application des modèles de langage visuel de grande envergure en radiologie. Bien que GPT-4V excelle dans l’identification des modalités d’imagerie et des régions anatomiques, ses limites dans la détection et le diagnostic des pathologies indiquent que le modèle nécessite encore des optimisations. Les recherches futures devraient se concentrer sur l’amélioration des performances du modèle dans les anomalies complexes et rares, et explorer son utilité pratique dans les applications cliniques.