Le type d'explication de l'IA affecte la performance diagnostique des médecins et la confiance en l'IA
Impact des types d’explication de l’IA sur la performance diagnostique et la confiance des médecins
Contexte académique
Ces dernières années, les systèmes de diagnostic basés sur l’intelligence artificielle (IA) dans les domaines des soins de santé et de la radiologie ont progressé rapidement, montrant un potentiel pour améliorer les soins aux patients en aidant les professionnels de santé surchargés. En 2022, 190 logiciels d’IA radiologique avaient été approuvés par la FDA, avec un taux d’approbation en augmentation chaque année. Cependant, un fossé persiste entre la preuve de concept et l’intégration réelle de l’IA dans la pratique clinique. Pour combler ce fossé, il est essentiel de cultiver une confiance appropriée dans les conseils de l’IA. Bien que les systèmes d’IA à haute précision aient démontré leur capacité à améliorer les performances diagnostiques des médecins et les résultats des patients dans des contextes réels, des conseils erronés de l’IA peuvent réduire la performance diagnostique, ce qui retarde son implémentation clinique.
Les médecins demandent que les outils d’IA soient transparents et interprétables. Dans le domaine de l’imagerie médicale, les outils d’IA peuvent fournir deux types d’explications : les explications locales (local explanations) et les explications globales (global explanations). Les explications locales expliquent pourquoi une prédiction spécifique a été faite en fonction d’une entrée particulière (par exemple, en mettant en évidence des caractéristiques informatives sur une radiographie), tandis que les explications globales expliquent comment fonctionne l’outil d’IA en général (par exemple, en décrivant que les critères de décision de l’IA sont basés sur des comparaisons avec des images prototypes de chaque classe de diagnostic). De plus, les médecins valorisent souvent la connaissance de la confiance ou de l’incertitude de la sortie de l’IA pour décider d’utiliser ou non ses conseils. Cependant, les médecins et les développeurs d’IA ne s’accordent pas sur l’utilité de ces deux types d’explications dans les applications de soins de santé, et peu d’études ont évalué l’interprétabilité des explications de l’IA dans le diagnostic radiologique.
Objectif et contexte de l’étude
Cette étude vise à tester si le type d’explication de l’IA, la justesse des conseils de l’IA et le niveau de confiance de l’IA influencent la performance diagnostique des médecins, leur perception de l’utilité des conseils de l’IA et leur confiance dans ces conseils pour le diagnostic des radiographies thoraciques. L’hypothèse est que différents types d’explications de l’IA, la justesse des conseils et le niveau de confiance affectent la précision diagnostique, l’efficacité, la confiance des médecins et leur perception des conseils de l’IA.
Source de l’article
Cet article a été co-écrit par Drew Prinster, Amama Mahmood, Suchi Saria, Jean Jeudy, Cheng Ting Lin, Paul H. Yi et Chien-Ming Huang, issus respectivement du département d’informatique de l’Université Johns Hopkins, de Bayesian Health, du département de radiologie diagnostique de l’Université du Maryland, du département de radiologie du St. Jude Children’s Research Hospital et du département de radiologie de l’École de médecine de l’Université Johns Hopkins. L’article a été publié en novembre 2024 dans la revue Radiology et a reçu le soutien de la National Science Foundation.
Méthodes et déroulement de l’étude
Conception de l’étude
Il s’agit d’une étude multicentrique, prospective et randomisée, menée d’avril 2022 à septembre 2022. L’étude a utilisé deux types d’explications d’IA couramment utilisées en imagerie médicale : les explications locales (basées sur des caractéristiques) et les explications globales (basées sur des prototypes). La justesse des conseils de l’IA et le niveau de confiance étaient des facteurs intra-participants, tandis que le type d’explication de l’IA était un facteur inter-participants. Les participants comprenaient des radiologues (experts en tâche) et des médecins en médecine interne ou en médecine d’urgence (non-experts en tâche), qui devaient interpréter des radiographies thoraciques et recevoir des conseils simulés de l’IA. Des modèles linéaires généralisés à effets mixtes ont été utilisés pour analyser l’impact des variables expérimentales sur la précision diagnostique, l’efficacité, la perception des médecins concernant l’utilité des conseils de l’IA et la “confiance simple” (c’est-à-dire la vitesse d’alignement ou de divergence par rapport aux conseils de l’IA).
Participants et collecte de données
L’étude a recruté 220 médecins (âge médian de 30 ans, 146 hommes), dont 132 radiologues et 88 médecins en médecine interne ou en médecine d’urgence. Chaque médecin devait interpréter 8 cas de radiographies thoraciques et recevoir des conseils simulés de l’IA. La justesse des conseils de l’IA et le niveau de confiance variaient aléatoirement entre les cas, chaque participant étant assigné à 6 cas avec des conseils corrects et 2 cas avec des conseils erronés. Le type d’explication de l’IA était assigné aléatoirement entre les participants, les explications locales étant présentées sous forme de boîtes de délimitation annotées mettant en évidence les régions anormales sur les radiographies, tandis que les explications globales comparaient l’image du cas à une image prototype issue de l’ensemble de données d’entraînement de l’IA.
Analyse des données
Des modèles linéaires généralisés à effets mixtes ont été utilisés pour analyser les données, avec des variables de contrôle incluant la connaissance de l’IA par les médecins, les caractéristiques démographiques et l’expertise en tâche. Des corrections de Holm-Sidak ont été appliquées pour ajuster le niveau de significativité des comparaisons multiples.
Résultats de l’étude
Précision diagnostique
Les résultats montrent que lorsque les conseils de l’IA étaient corrects, les explications locales amélioraient significativement la précision diagnostique des médecins (β = 0,86, p < 0,001), tandis que les explications globales étaient moins efficaces. Lorsque les conseils de l’IA étaient erronés, le type d’explication n’avait pas d’impact significatif sur la précision diagnostique (β = -0,23, p = 0,39). De plus, une interaction a été observée entre le niveau de confiance de l’IA et l’expertise en tâche des médecins, les non-experts bénéficiant davantage des explications locales lorsque la confiance de l’IA était élevée, et les experts bénéficiant davantage des explications locales lorsque la confiance de l’IA était faible.
Efficacité diagnostique
Les explications locales réduisaient significativement le temps passé par les médecins à considérer les conseils de l’IA (β = -0,19, p = 0,01), indiquant une amélioration de l’efficacité diagnostique. La justesse des conseils de l’IA n’avait pas d’impact significatif sur l’efficacité diagnostique (β = -0,06, p = 0,17).
Perception des médecins concernant les conseils de l’IA
Le type d’explication de l’IA et le niveau de confiance de l’IA n’avaient pas d’impact significatif sur la perception des médecins concernant l’utilité des conseils de l’IA (β = 0,35, p = 0,07 ; β = -0,16, p = 0,22). Cependant, une interaction a été observée entre l’expertise en tâche des médecins et la justesse des conseils de l’IA, les experts percevant une plus grande différence d’utilité entre les conseils corrects et erronés de l’IA (β = 0,84, p < 0,001).
Mécanisme de “confiance simple”
Les explications locales augmentaient significativement la “confiance simple” des médecins dans les conseils de l’IA (β = 1,32, p = 0,048), c’est-à-dire que les médecins s’alignaient plus rapidement sur les conseils de l’IA. Ce mécanisme contribuait à améliorer la précision diagnostique lorsque les conseils de l’IA étaient corrects, mais pouvait également entraîner une surconfiance dans les conseils erronés.
Conclusion
Cette étude montre que le type d’explication de l’IA influence significativement la performance diagnostique des médecins et leur confiance dans l’IA, même si les médecins eux-mêmes ne sont pas conscients de ces effets. Les explications locales améliorent la précision et l’efficacité diagnostiques lorsque les conseils de l’IA sont corrects, mais peuvent également augmenter la dépendance excessive envers les conseils erronés. Le développement futur des systèmes d’aide à la décision basés sur l’IA devrait prendre en compte l’impact des différents types d’explications, en particulier en ce qui concerne l’incertitude de l’IA et le niveau d’expérience des utilisateurs.
Points forts de l’étude
- Avantages des explications locales : Les explications locales améliorent significativement la précision et l’efficacité diagnostiques lorsque les conseils de l’IA sont corrects.
- Mécanisme de “confiance simple” : Les explications locales augmentent la “confiance simple” des médecins dans les conseils de l’IA, ce qui peut réduire la sous-utilisation des conseils corrects, mais aussi augmenter la surconfiance dans les conseils erronés.
- Interaction avec l’expertise en tâche : Les non-experts bénéficient davantage des explications locales lorsque la confiance de l’IA est élevée, tandis que les experts en bénéficient davantage lorsque la confiance de l’IA est faible.
Signification et valeur de l’étude
Cette étude fournit des insights importants pour l’application de l’IA dans le diagnostic radiologique, soulignant le rôle crucial des types d’explication dans la collaboration entre les médecins et l’IA. Les résultats suggèrent que la conception des systèmes d’IA devrait prendre en compte les types d’explication, la confiance de l’IA et le niveau d’expérience des utilisateurs pour optimiser leur efficacité clinique. Les recherches futures pourraient explorer d’autres types d’explications et des représentations alternatives de l’incertitude de l’IA pour améliorer la transparence et l’interprétabilité de l’IA dans la prise de décision médicale.