Impact clinique d'un modèle radiomique explicable avec imagerie TOMO par émission de positrons aux acides aminés : application au diagnostic des gliomes agressifs

Application de l’apprentissage automatique explicable à l’imagerie par TEP aux acides aminés pour le diagnostic des gliomes

Contexte académique

Les gliomes sont l’une des tumeurs malignes les plus courantes du système nerveux central. Leur diagnostic et les stratégies thérapeutiques correspondent traditionnellement à une analyse histopathologique. Cependant, l’histopathologie présente des limites, notamment son caractère invasif et le temps qu’elle nécessite. Ces dernières années, la radiomique, basée sur l’extraction quantitative de caractéristiques d’images médicales combinée aux algorithmes d’apprentissage automatique, a émergé comme une méthode prometteuse. Elle permet de capturer efficacement des relations complexes entre les caractéristiques d’imagerie, offrant ainsi de nouvelles possibilités pour le diagnostic et le pronostic des gliomes. Cependant, bien que ces modèles en apprentissage automatique montrent des performances efficaces dans la prédiction des caractéristiques des gliomes, leur implémentation clinique reste limitée, principalement en raison du manque de transparence dans le processus décisionnel et de leur difficulté d’intégration dans les flux de travail cliniques.

Pour résoudre ces contraintes, les méthodes d’apprentissage automatique explicable (XML) ont été développées. Elles permettent de fournir des explications sur les prédictions des modèles, favorisant ainsi une meilleure compréhension par les cliniciens et renforçant leur confiance dans ces outils. Cette étude a pour objectif d’évaluer si un modèle radiomique explicable basé sur l’imagerie par tomographie par émission de positons (TEP) aux acides aminés peut améliorer l’évaluation de l’agressivité tumorale par les médecins spécialistes en imagerie nucléaire dans le cadre du diagnostic des gliomes.

Origine de l’article

Cet article a été rédigé par une équipe pluridisciplinaire française, composée notamment de Shamimeh Ahrari, Timothée Zaragori et Adeline Zinsz. Les institutions participantes incluent l’Université de Lorraine et le CHRU de Nancy. Publié en 2024 dans le European Journal of Nuclear Medicine and Molecular Imaging, l’article est référencé sous le DOI 10.1007/s00259-024-07053-6.

Déroulement de l’étude

1. Conception de l’étude et collecte des données

Cette étude rétrospective a inclus des patients ayant bénéficié d’acquisitions dynamiques de TEP 6-[18F]fluoro-L-dopa (18F-FDOPA) au CHRU de Nancy entre janvier 2013 et janvier 2023. Chaque participant a également subi une imagerie IRM dans les 30 jours suivants et une confirmation histopathologique par intervention chirurgicale ou biopsie stéréotaxique dans les 60 jours. Finalement, 85 patients ont été inclus dans l’étude : 63 dans l’ensemble d’entraînement et 22 dans l’ensemble de test.

2. Acquisition et prétraitement des images

Tous les patients étaient à jeun pendant au moins 4 heures avant l’acquisition TEP. Certains ont reçu une prémédication de carbidopa une heure avant l’examen pour améliorer la capture cérébrale de l’agent traceur. Deux systèmes d’imagerie (Siemens Biograph 6 True Point PET/CT et Philips Vereos PET/CT) ont été utilisés pour des acquisitions dynamiques de 30 minutes. Les images statiques ont été reconstruites à partir des 20 dernières minutes, et les images dynamiques ont été segmentées en 30 tranches d’une minute. Un rééchantillonnage spatial a été appliqué pour obtenir des voxels isotropiques de 2×2×2 mm³.

3. Extraction des caractéristiques

Un total de 208 caractéristiques radiomiques ont été extraites à partir des images TEP statiques et dynamiques, y compris des caractéristiques statistiques, morphologiques et texturales. Les outils PyRadiomics et un logiciel interne ont été utilisés pour ces extractions. Des métriques classiques comme le volume tumoral métabolique et les ratios tumeur/fond (TBR) ont également été calculées.

4. Entraînement et évaluation du modèle

Les données ont été divisées en ensembles d’entraînement (75 %) et de test (25 %) par échantillonnage stratifié aléatoire. Des processus incluant la suppression des variables à variance nulle, la normalisation et un clustering hiérarchique basé sur les corrélations ont permis de sélectionner les caractéristiques les plus informatives. Ensuite, un classificateur ensembliste, combinant plusieurs algorithmes comme la régression logistique, les machines à vecteurs de support et les forêts aléatoires, a été entraîné. Les hyperparamètres ont été optimisés par validation croisée en 5 replis.

5. Explicabilité des modèles

Trois techniques XML ont été utilisées pour générer des explications spécifiques aux cas des patients de l’ensemble de test : LIME (Local Interpretable Model-agnostic Explanations), Anchor et SHAP (Shapley Additive Explanations). Ces explications ont été fournies sous forme de visualisations pour aider les médecins à mieux comprendre les prédictions des modèles.

6. Évaluation par les médecins

L’étude a impliqué 18 médecins en médecine nucléaire provenant de 8 institutions. Ces médecins ont analysé les 22 échantillons du test en deux phases : dans la première phase, ils ont uniquement utilisé les images IRM et TEP conventionnelles ; dans la seconde phase, ils ont disposé des prédictions et explications des modèles XML en supplément. Leur performance diagnostique, leur concordance interévaluateurs et leur niveau de confiance ont été mesurés.

Résultats de l’étude

1. Performance des modèles

Le modèle radiomique a atteint une AUC de 0.718 sur l’ensemble de test avec une précision de diagnostic augmentée à 0.775. Par comparaison, dans la seconde phase, la précision diagnostique des médecins a été significativement améliorée (0.775 contre 0.717, p = 0.007), avec une sensibilité et une spécificité accrues de 6 % et 12 %, respectivement.

2. Résultats des évaluations cliniques

Dans la seconde phase, la cohérence diagnostique entre médecins, mesurée par le kappa de Fleiss, a progressé de 0.609 à 0.747. De plus, leur confiance dans leurs décisions a significativement augmenté (p < 0.001). Parmi les méthodes XML, Anchor et SHAP ont montré une efficacité respective de 75 % et 72 %, dépassant LIME (p ≤ 0.001).

3. Impact des explications

Lorsque les prédictions des modèles étaient correctes, elles ont aidé à améliorer la précision des médecins. Cependant, des prédictions erronées ont parfois influencé négativement leurs décisions. Les explications fournies ont renforcé leur compréhension des données d’imagerie et accru leur confiance.

Conclusions et implications

Cette étude met en lumière la valeur d’un modèle radiomique explicable, basé sur l’imagerie TEP aux acides aminés, pour l’évaluation de l’agressivité des gliomes. En fournissant des explications transparentes sur ses prédictions, le modèle a significativement amélioré l’exactitude et la confiance diagnostiques des médecins, tout renforçant la cohérence interévaluateurs. Ces résultats démontrent le potentiel des modèles XML pour intégrer les algorithmes d’apprentissage dans le cadre clinique, notamment en neuro-oncologie. Des recherches supplémentaires sont nécessaires pour évaluer leur efficacité sur d’autres indications, comme la détection des récidives des gliomes.

Points forts de l’étude

  1. Méthode innovante : Première intégration des approches LIME, Anchor et SHAP dans le cadre de la radiomique pour soutenir le diagnostic des gliomes.
  2. Applicabilité clinique : Validation de l’efficacité du modèle en conditions réelles cliniques, suggérant une forte translatabilité.
  3. Collaboration multicentrique : Partenariat entre plusieurs institutions françaises, renforçant la pertinence des résultats obtenus.
  4. Diversité des données : Utilisation d’images issues de différents systèmes d’acquisition, assurant une meilleure robustesse du modèle.

Informations complémentaires

Enfin, l’étude souligne des limites, comme les biais possibles dans certains cas rares (e.g., l’identification des xanthastrocytomes pléiomorphes). Elle met aussi en avant l’impact de l’expérience des médecins vis-à-vis des outils XML. Ces observations appellent à des recherches futures qui intégreront de nouveaux contextes et des échantillons plus diversifiés.