Transformateurs de vision, modèle d'ensemble et apprentissage par transfert utilisant l'IA explicable pour la détection et la classification des tumeurs cérébrales

En raison de la forte incidence et de la létalité des tumeurs cérébrales, il est devenu particulièrement important de détecter et de classifier rapidement et précisément les tumeurs cérébrales. Les tumeurs cérébrales incluent des types malins et non malins, et leur croissance anormale peut causer des dommages à long terme au cerveau. L’imagerie par résonance magnétique (IRM) est une méthode couramment utilisée pour détecter les tumeurs cérébrales. Cependant, la dépendance à l’analyse manuelle des images IRM par des experts présente un risque d’incohérence des résultats, et il ne suffit pas seulement d’identifier la tumeur; il est également important de déterminer rapidement le type de tumeur afin de commencer le traitement dès que possible.

Afin d’améliorer la rapidité, la fiabilité et l’équité de la détection des tumeurs, cette étude explore diverses architectures d’apprentissage profond (Deep Learning, DL), y compris VGG16, InceptionV3, VGG19, ResNet50, InceptionResNetV2 et Xception, et propose un nouveau modèle basé sur trois meilleurs modèles d’apprentissage par transfert (Transfer Learning, TL) nommé IVX16. Le modèle de classification multiclass présenté dans cet article vise à résoudre l’état actuel de concentration principalement sur les problèmes de classification binaire, et à fournir des résultats de classification multiclass plus précis.

Méthodes et Processus

Jeu de données

Cette étude utilise un jeu de données de tumeurs cérébrales multi-classes contenant quatre catégories (adénome hypophysaire, gliome, méningiome et absence de tumeur), totalisant 3 264 images. Le jeu de données est divisé en ensembles d’entraînement, de test et de validation dans des proportions de 80%, 10% et 10% respectivement. Grâce à des techniques d’augmentation de données (telles que redimensionnement, gamme de cisaillement, gamme de zoom et retournement horizontal), le jeu de données est augmenté à 13 056 images.

Modèles TL et Architectures

L’étude a utilisé six modèles TL : 1. VGG16 : Comprenant 16 couches, il est capable de traiter efficacement des fonctions complexes et performe bien dans des domaines pratiques tels que l’analyse clinique. 2. InceptionV3 : Modèle de Google, avec un coût de calcul relativement faible, adapté aux grands ensembles de données. 3. VGG19 : Comprend 19 couches, avec une couche de convolution de plus que VGG16, adapté aux ensembles de données complexes. 4. ResNet50 : Réseau à résidus, adapté au traitement de réseaux plus profonds, réduisant les problèmes de dégradation. 5. InceptionResNetV2 : Combine le modèle Inception avec des connexions résiduelles, accélérant considérablement la vitesse d’entraînement. 6. Xception : Convolutions séparables en profondeur, économisant les ressources de calcul et utilisant efficacement les paramètres du modèle.

Modèle Intégré IVX16

IVX16 est basé sur les trois meilleurs modèles : VGG16, InceptionV3 et Xception, et améliore la robustesse aux variations de données et aux changements de l’architecture du modèle grâce à une approche de modèle intégré. Le modèle intégré évite les problèmes de surapprentissage (overfitting), et sa complexité accrue lui permet de traiter des motifs d’image plus complexes.

Modèle Vision Transformer (ViT)

De plus, la performance de trois modèles de vision basés sur Transformer (Swin, CCT et EANet) a été comparée : 1. Swin : Transformer de type Shifted Windows, utilise un mécanisme de fenêtre coulissante pour améliorer l’efficacité de traitement et la capacité de représentation hiérarchique. 2. CCT : Approche combinant convolution et Transformer, améliorant la capacité de traitement des informations locales. 3. EANet : Utilise un modèle d’attention externe pour améliorer l’efficacité de calcul et la performance.

Résultats des Expériences

Résultats des Modèles TL et Intégrés

IVX16 a montré les meilleures performances lors de l’entraînement et de la validation, atteignant un taux de précision maximum de 96.94%. D’autres modèles TL tels que InceptionV3, VGG16 et Xception ont également montré de bonnes performances, mais IVX16 a excellé dans la détection et la classification des tumeurs.

Résultats des Modèles ViT

Les modèles ViT n’ont pas bien performé sur des ensembles de données de petite taille, présentant des cas marqués de surapprentissage.

IA Explicative

Les performances des modèles TL et du modèle IVX16 ont été évaluées à l’aide de l’outil LIME, qui a généré des images montrant la précision avec laquelle chaque modèle classifie les régions tumorales. IVX16 a montré une bonne précision dans la reconnaissance des trois types différents de tumeurs, tandis que les modèles TL simples avaient tendance à faire des erreurs de classification.

Conclusion

Le modèle IVX16 proposé dans cet article améliore la précision et la fiabilité de la classification des tumeurs cérébrales grâce à une intégration des modèles TL. Par rapport aux modèles simples et aux modèles ViT, IVX16 a montré une capacité supérieure de détection et de classification, en particulier en étant plus précis et digne de confiance dans l’interprétation des résultats prédits. Les recherches futures exploreront davantage de méthodes pour améliorer les performances et la capacité d’explication des modèles, afin d’augmenter encore la précision et la praticité de la détection des tumeurs cérébrales.