Évaluation de la précision des modèles de langage multimodaux dans l'interprétation des images radiologiques
Comparaison de la précision des grands modèles de langage et des lecteurs humains dans l’interprétation d’images radiologiques
Contexte académique
Ces dernières années, les grands modèles de langage (Large Language Models, LLMs) ont démontré des capacités impressionnantes dans divers domaines, notamment en traitement du langage naturel. Avec l’émergence des LLMs multimodaux, ces modèles peuvent désormais traiter non seulement du texte, mais aussi des entrées audio, visuelles et vidéo. Parmi les LLMs multimodaux représentatifs, on trouve GPT-4 Turbo with Vision (GPT-4V) d’OpenAI, Gemini 1.5 Pro de Google DeepMind et Claude 3 d’Anthropic. Ces modèles trouvent également des applications croissantes dans le domaine de la radiologie, en particulier pour la génération et la structuration de rapports radiologiques. Cependant, malgré leurs performances impressionnantes avec les entrées textuelles, leur capacité à interpréter des images radiologiques reste sujette à caution. Des études antérieures ont montré que les LLMs sont significativement moins précis que les radiologues certifiés dans les tâches de diagnostic basées sur les antécédents des patients et les images radiologiques. Par conséquent, cette étude vise à évaluer la précision des LLMs dans l’interprétation d’images radiologiques, à la comparer à celle de lecteurs humains de différents niveaux d’expérience, et à explorer les facteurs influençant la précision des LLMs.
Source de l’article
Cette étude a été menée par des chercheurs du département de radiologie de la faculté de médecine de l’université Yonsei en Corée, du centre médical Asan de Séoul et de plusieurs autres institutions. Les auteurs principaux incluent Pae Sun Suh, Woo Hyun Shim et Chong Hyun Suh. L’étude a été publiée en décembre 2024 dans la revue Radiology, sous le titre Comparing Large Language Model and Human Reader Accuracy with New England Journal of Medicine Image Challenge Case Image Inputs.
Méthodologie et résultats
Méthodologie
Cette étude a analysé rétrospectivement les cas publiés dans la rubrique “Image Challenge” du New England Journal of Medicine (NEJM) entre le 13 octobre 2005 et le 18 avril 2024. Sur les 964 cas examinés, 272 cas contenant des images radiologiques ont été retenus. Ces cas couvrent plusieurs sous-spécialités radiologiques, notamment la neuroradiologie, la radiologie gastro-intestinale, la radiologie thoracique, la radiologie musculo-squelettique, la radiologie pédiatrique, la radiologie cardiovasculaire et la radiologie génito-urinaire. Quatre LLMs dotés de capacités visuelles (GPT-4V, GPT-4 Omni, Gemini 1.5 Pro et Claude 3) ont été utilisés pour répondre à ces cas, et leurs performances ont été comparées à celles de 11 lecteurs humains (comprenant 7 radiologues juniors, 2 cliniciens, 1 radiologue en formation et 1 étudiant en médecine).
Résultats
Les résultats montrent que GPT-4 Omni a obtenu la meilleure précision parmi les LLMs, avec un taux de précision global de 59,6 % (162⁄272), significativement supérieur à celui de l’étudiant en médecine (47,1 % ; 128⁄272 ; p < 0,001), mais inférieur à celui des radiologues juniors (80,9 % ; 220⁄272 ; p < 0,001) et du radiologue en formation (70,2 % ; 191⁄272 ; p = 0,003). La précision des LLMs n’a pas été affectée par l’ajout d’images, mais elle a augmenté de manière significative avec des entrées textuelles plus longues (p < 0,001). En revanche, la précision des lecteurs humains n’a pas été influencée par la longueur du texte.
Dans l’analyse par sous-spécialité, les radiologues juniors ont obtenu une précision supérieure à celle des LLMs dans la plupart des domaines, en particulier en neuroradiologie, en radiologie gastro-intestinale et en radiologie musculo-squelettique. Cependant, en radiologie pédiatrique, GPT-4 Omni a obtenu une précision légèrement supérieure (88 % ; 22⁄25) à celle des radiologues juniors (76 % ; 19⁄25), bien que la différence ne soit pas significative.
En ce qui concerne les modalités d’imagerie, les LLMs ont obtenu une meilleure précision avec les entrées d’IRM qu’avec les entrées de tomodensitométrie (CT) ou de radiographie. GPT-4 Omni a montré une précision comparable à celle des radiologues juniors pour les IRM, mais ces derniers ont été significativement plus précis pour les radiographies et les CT.
Conclusion
L’étude montre que les LLMs présentent une précision notable dans l’interprétation d’images radiologiques basées sur des entrées textuelles et visuelles, en particulier avec des entrées textuelles longues. Cependant, leur précision reste inférieure à celle des radiologues expérimentés, surtout avec des entrées textuelles courtes. De plus, les LLMs ont démontré une précision élevée dans la fourniture d’informations sur les images (comme la modalité d’imagerie, le plan, la localisation anatomique et l’utilisation de produit de contraste), mais leur capacité d’évaluation visuelle et d’interprétation des images reste incertaine.
Points forts de l’étude
- Performances des LLMs en radiologie : GPT-4 Omni a obtenu la meilleure précision parmi les LLMs, mais reste moins précis que les radiologues expérimentés.
- Impact de la longueur du texte : La précision des LLMs augmente significativement avec des entrées textuelles longues, indiquant une dépendance à la richesse des informations textuelles.
- Influence des modalités d’imagerie : Les LLMs obtiennent de meilleurs résultats avec les IRM qu’avec les CT ou les radiographies, suggérant un potentiel dans l’interprétation d’images complexes.
- Précision des LLMs dans la fourniture d’informations sur les images : Les LLMs montrent une précision élevée dans la fourniture d’informations sur les images, mais leur capacité d’évaluation visuelle et d’interprétation reste incertaine.
Signification et valeur de l’étude
Cette étude fournit des données empiriques importantes sur l’application des LLMs en radiologie. Bien que les LLMs montrent une précision notable dans l’interprétation d’images radiologiques basées sur des entrées textuelles et visuelles, leurs limites dans l’évaluation visuelle et l’interprétation des images suggèrent qu’ils ne remplaceront pas les radiologues à court terme. Cependant, avec les avancées technologiques futures, les LLMs pourraient jouer un rôle de soutien dans le diagnostic radiologique, en particulier dans le traitement de grandes quantités d’informations textuelles et d’images complexes.
Autres informations utiles
L’étude a également exploré la performance des LLMs dans la fourniture d’informations sur les images, révélant que GPT-4 Omni est significativement plus précis que les autres LLMs dans la génération d’informations sur les séquences IRM. De plus, l’étude souligne que la performance des LLMs dans les quiz à choix multiples pourrait être surestimée, car les radiologues en pratique clinique ne s’appuient généralement pas sur des questions à choix multiples pour établir des diagnostics.
Cette étude fournit des données empiriques importantes pour l’application des LLMs en radiologie, tout en mettant en lumière leurs limites dans des contextes cliniques réels. Les recherches futures pourraient explorer des moyens d’optimiser les performances des LLMs dans l’interprétation d’images radiologiques et évaluer leur potentiel dans des environnements cliniques réels.