Un Modèle Transformer Explicable Intégrant les Données PET et Tabulaires pour le Classement Histologique et le Pronostic du Lymphome Folliculaire : Une Étude de Biopsie Numérique Multi-Institutionnelle
Modèle Transformer fusionnant les données d’images PET et cliniques : Une étude multicentrique sur la biopsie numérique pour la classification pathologique et le pronostic du lymphome folliculaire
Contexte académique
Le lymphome folliculaire (LF) est le lymphome non hodgkinien indolent le plus courant dans les pays occidentaux, représentant environ 30 % des nouveaux cas diagnostiqués. Selon la classification de l’Organisation Mondiale de la Santé (OMS), le LF est divisé en trois grades pathologiques (grades 1-3), la classification étant basée sur le nombre de centroblastes par champ à haute puissance (High-Power Field, HPF). Toutefois, le grade 3 est subdivisé en grades 3a et 3b, avec un comportement biologique plus agressif pour le grade 3b. Les patients avec des grades 1-2 ont généralement une évolution lente et, dans certains cas asymptomatiques avec une faible charge tumorale, une stratégie de « surveillance active » peut être mise en œuvre. Par comparaison, les caractéristiques biologiques et cliniques des patients de grade 3a se situent entre les grades 1-2 et le grade 3b, et des études ont démontré des différences significatives de survie au sein de chaque catégorie.
Actuellement, la biopsie associée à l’analyse immunohistochimique reste la norme pour confirmer le grade pathologique du LF. Cependant, cette approche présente des limites telles que des biais d’échantillonnage et les difficultés d’accès aux lésions situées dans des zones difficiles d’accès. Ainsi, bien que le 18F-FDG PET/CT soit largement utilisé pour le stadification du LF, son utilisation pour la classification reste sous-exploitée. Certaines études antérieures ont tenté d’utiliser des paramètres PET tels que SUVmax (Maximum de consommation standardisée), TMTV (Volume tumoral métabolique total) et TLG (Glycolyse lésionnelle totale) pour différencier les grades du LF. Cependant, ces études présentent des échantillons limités, souvent monocentriques, ce qui pose des questions de généralisabilité. En outre, les paramètres métaboliques traditionnels offrent une vision limitée de l’hétérogénéité des tumeurs, rendant difficile une compréhension complète de leur variabilité biologique.
Récemment, les avancées en intelligence artificielle (IA) ont ouvert de nouvelles possibilités pour l’analyse approfondie des images médicales. Les modèles basés sur l’apprentissage profond montrent un potentiel significatif pour extraire des informations pathologiques détaillées à partir des images PET. Cependant, la plupart des modèles IA reposent uniquement sur les caractéristiques radiomiques des images ou extraient directement des informations des images, sans intégrer efficacement les données cliniques. De plus, beaucoup de ces modèles, appelés « boîtes noires », manquent d’explicabilité, limitant ainsi leur acceptation en pratique clinique.
Pour relever ces défis, cette étude vise à développer un modèle Transformer multimodal explicable qui intègre les images PET et les données cliniques pour une classification précise du grade pathologique du LF, ainsi qu’une évaluation pronostique.
Source de l’article
Cette étude, dirigée par l’équipe de recherche du département de médecine nucléaire de l’Hôpital de l’Ouest de la Chine (Université Sichuan), a été réalisée en collaboration avec les chercheurs des centres suivants : Hôpital Drum Tower (Université de Nankin), Hôpital Qilu (Université de Shandong), Premier Hôpital Affiliated (Université médicale de Nanjing), et Premier Hôpital Affiliated (Université de Xiamen). L’article a été publié dans le European Journal of Nuclear Medicine and Molecular Imaging, avec une mise en ligne en janvier 2025. Les auteurs principaux de l’étude sont Chong Jiang et Zekun Jiang.
Démarche de recherche
Données et cohortes de l’étude
Cette recherche inclut un total de 513 patients diagnostiqués avec un LF, issus de cinq centres médicaux indépendants. Ces patients ont été classés selon leur grade pathologique (1-2, 3a, ou 3b). En fonction des régions, les données ont été réparties en trois cohorts : ensemble d’entraînement, de validation interne et de validation externe. Plus précisément : - Ensemble d’entraînement : 275 patients provenant de l’Hôpital de l’Ouest de la Chine, Drum Tower (Université de Nankin), et Qilu (Université de Shandong). - Ensemble de validation interne : 69 patients. - Ensemble de validation externe : 169 patients provenant des hôpitaux affiliés à l’Université de Xiamen et à l’Université médicale de Nanjing.
Prétraitement des données
- Traitement des images PET : Extraction de la région d’intérêt tumorale (VOI) pour chaque patient. Les variations dans l’intensité des appareils ont été corrigées par normalisation, et les dimensions ont été standardisées pour s’adapter au modèle.
- Normalisation des données cliniques : Les caractéristiques cliniques (âge, niveau de LDH, symptômes B, etc.) ont été normalisées pour améliorer leur intégration dans le modèle.
- Augmentation des images : Rotation et mise à l’échelle sur les données PET afin d’accroître la diversité des données et la robustesse du modèle.
Conception et développement du modèle
Le modèle Transformer de l’étude comprend quatre modules : 1. Encodeur d’image : Basé sur l’architecture Swin Transformer en 3D, pour encoder les caractéristiques des images PET. 2. Encodeur des données tabulaires : Utilise une structure de perceptron multicouche (MLP) pour encoder les informations cliniques. 3. Réseau de fusion : Inclut des couches d’attention croisée pour capturer la relation entre les données d’image et cliniques, ainsi que des couches d’auto-attention pour affiner les représentations intégrées. 4. Tête de classification : Composée de couches entièrement connectées et non linéaires pour la prédiction des trois catégories.
Afin de réduire le surapprentissage, le modèle utilise la régularisation Dropout et une optimisation via AdamW avec un planificateur de température cosinusoïdale.
Mécanismes d’interprétabilité
Trois outils ont été intégrés pour exploiter l’explicabilité : 1. Grad-CAM : Crée des cartes de chaleur pour indiquer les régions des images PET les plus influentes sur les prédictions. 2. Analyse SHAP : Attribue des scores d’importance aux différentes caractéristiques cliniques et évalue leur contribution au modèle. 3. Analyse de pondération attentionnelle croisée : Quantifie les contributions respectives des informations PET et tabulaires dans les décisions du modèle.
Résultats principaux
Performance du modèle
Le modèle Transformer multimodal montre une excellente précision de classification sur tous les ensembles de données, atteignant une AUC supérieure à 0,9. Sur l’ensemble externe : - Prédiction des grades 1-2 : AUC = 0,936, précision = 86,4 %. - Prédiction des grades 3a : AUC = 0,927, précision = 88,2 %. - Prédiction des grades 3b : AUC = 0,994, précision = 97,0 %.
Les études d’ablation montrent également que le modèle combiné surpasse significativement les modèles unimodaux (basés uniquement sur PET ou les données cliniques).
Analyse clinique et pronostique
- Grad-CAM met en évidence les zones tumorales principales. Le modèle se concentre également sur les régions péri-tumorales, cohérent avec les connaissances cliniques.
- Analyse SHAP : L’âge et le SUVmax sont identifiés comme caractéristiques prédictives majeures, corrélées à une agression tumorale accrue.
- Stratification pronostique : Les courbes de Kaplan-Meier montrent des distinctions significatives dans la survie sans progression (PFS), avec un meilleur pronostic pour les grades 1-2 et un pronostic défavorable pour les patients de grade 3b.
Points forts et contribution
- Avancée méthodologique : Première implémentation réussie d’un Transformer multimodal combinant PET et données cliniques.
- Explicabilité clinique : L’utilisation conjointe de Grad-CAM et SHAP fournit une interprétation transparente des décisions modèles.
- Généralisation : Validation sur différentes institutions et parcs d’équipement, assurant une transférabilité clinique.
- Application pratique : Une méthode de classification non invasive qui peut transformer les stratégies de prise en charge du LF.
Conclusion
Cette étude a développé un modèle Transformer multimodal explicable capable de classifier avec précision les grades pathologiques du lymphome folliculaire tout en fournissant une évaluation pronostique robuste. Ce modèle offre une nouvelle alternative non invasive, soutenant ainsi la médecine de précision et renforçant les outils cliniques basés sur l’IA.