MediVision : Renforcer le diagnostic du cancer colorectal et la localisation des tumeurs grâce aux classifications d'apprentissage supervisé et à la visualisation Grad-CAM des images de coloscopie médicale

Contexte académique

Le cancer colorectal (Colorectal Cancer, CRC) est l’un des cancers les plus répandus dans le monde, en particulier chez les personnes de plus de 50 ans, où l’incidence augmente de manière significative. La détection précoce et un diagnostic précis sont essentiels pour améliorer le taux de survie des patients. Cependant, les méthodes traditionnelles de dépistage du cancer colorectal, telles que la coloscopie, reposent sur l’expérience et le jugement visuel des médecins, ce qui introduit une certaine subjectivité et un risque d’erreur de diagnostic. Ces dernières années, l’intelligence artificielle (Artificial Intelligence, AI) et les technologies d’apprentissage profond (Deep Learning, DL) ont offert de nouvelles possibilités pour le diagnostic automatisé du cancer colorectal grâce à l’analyse d’images médicales. Cependant, les modèles d’IA existants présentent encore des lacunes dans l’extraction des caractéristiques des images et dans l’interprétabilité des modèles, en particulier lorsqu’il s’agit de traiter des images dans des conditions d’acquisition variées. La généralisation et la transparence des modèles doivent être améliorées.

Pour résoudre ces problèmes, les chercheurs ont développé le système Medivision, qui combine les réseaux de neurones convolutifs (Convolutional Neural Networks, CNNs), l’extraction de caractéristiques par la matrice de co-occurrence de niveaux de gris (Gray-Level Co-occurrence Matrix, GLCM) et la visualisation par cartographie d’activation de classe pondérée par gradient (Gradient-weighted Class Activation Mapping, Grad-CAM), dans le but d’améliorer la précision du diagnostic du cancer colorectal et l’interprétabilité des modèles.

Source de l’article

Cette recherche a été menée par Akella S. Narasimha Raju, K. Venkatesh, Ranjith Kumar Gatla, Shaik Jakeer Hussain et Subba Rao Polamuri, issus de différentes institutions de recherche. L’article a été publié en 2025 dans la revue Cognitive Computation sous le titre Medivision: Empowering Colorectal Cancer Diagnosis and Tumor Localization through Supervised Learning Classifications and Grad-CAM Visualization of Medical Colonoscopy Images.

Processus de recherche

1. Prétraitement et augmentation des données

L’étude a d’abord procédé au prétraitement et à l’augmentation des données de trois ensembles de données d’images de coloscopie (CVC Clinic DB, Kvasir2 et Hyper Kvasir). Les étapes de prétraitement comprenaient le redimensionnement des images à 224×224 pixels, la normalisation des pixels et la réduction du bruit par filtrage gaussien. Les techniques d’augmentation des données incluaient la rotation aléatoire, le retournement, le zoom et le recadrage, afin d’augmenter la diversité des données et la capacité de généralisation des modèles.

2. Extraction des caractéristiques

L’étude a utilisé la technique GLCM pour extraire les caractéristiques de texture des images prétraitées. La GLCM calcule les relations spatiales entre les paires de pixels et extrait six caractéristiques clés : la dissimilarité (Dissimilarity), la corrélation (Correlation), l’homogénéité (Homogeneity), le contraste (Contrast), le moment angulaire du second ordre (Angular Second Moment, ASM) et l’énergie (Energy). Ces caractéristiques permettent de capturer les variations subtiles de texture des polypes colorectaux et des tissus cancéreux.

3. Entraînement et évaluation des modèles

L’étude a évalué sept architectures CNN pré-entraînées (ResNet50, VGG16, VGG19, DenseNet201, EfficientNetB7, NASNetLarge et InceptionResNetV2) ainsi que deux modèles CNN intégrés (Dev-22 et RV-22). Le Dev-22 combine DenseNet201, EfficientNetB7 et VGG16, tandis que le RV-22 combine ResNet50 et VGG19. Chaque modèle a été entraîné et testé sur les trois ensembles de données, avec des indicateurs d’évaluation incluant l’exactitude de l’entraînement, l’exactitude du test, le score F1, le rappel et la précision.

4. Visualisation par Grad-CAM

Pour améliorer l’interprétabilité des modèles, l’étude a utilisé la technique Grad-CAM pour générer des cartes thermiques mettant en évidence les régions de l’image les plus importantes pour les prédictions du modèle. Grad-CAM calcule les gradients des cartes de caractéristiques des couches convolutives pour générer des cartes d’activation de classe, aidant les médecins à comprendre le processus de décision du modèle.

Principaux résultats

1. Performance des modèles

Parmi toutes les architectures CNN évaluées, VGG16 a montré des performances exceptionnelles sur les trois ensembles de données. Sur l’ensemble de données CVC Clinic DB, l’exactitude du test de VGG16 a atteint 96,12 %, sur Kvasir2, elle était de 94,25 %, et sur Hyper Kvasir, elle a atteint 98,87 %. Le modèle intégré Dev-22 a également montré une exactitude élevée sur plusieurs ensembles de données, en particulier sur CVC Clinic DB, où l’exactitude du test a atteint 97,86 %.

2. Visualisation par Grad-CAM

Les cartes thermiques Grad-CAM ont permis de localiser avec succès les régions de polypes dans les images de coloscopie, fournissant une interprétation visuelle intuitive. Les images Grad-CAM générées par VGG16 et Dev-22 ont montré une précision de localisation élevée, aidant les médecins à mieux comprendre les prédictions du modèle.

Conclusion et signification

Le système Medivision, en combinant les technologies CNN, GLCM et Grad-CAM, a significativement amélioré la précision du diagnostic du cancer colorectal et l’interprétabilité des modèles. Le succès de ce système fournit aux cliniciens un outil d’aide au diagnostic efficace et fiable, en particulier pour traiter des images de coloscopie complexes et variées, démontrant une forte capacité de généralisation et de transparence.

Points forts de la recherche

  1. Haute précision : VGG16 et Dev-22 ont montré une exactitude de détection élevée sur plusieurs ensembles de données, en particulier sur CVC Clinic DB, où l’exactitude du test approchait 98 %.
  2. Interprétabilité des modèles : La technique Grad-CAM a renforcé la transparence des modèles, aidant les médecins à comprendre le processus de décision du modèle et augmentant la confiance dans les applications cliniques.
  3. Modèles intégrés : La conception intégrée de Dev-22 et RV-22 a tiré parti des avantages des différentes architectures CNN, améliorant encore les performances des modèles.

Autres informations utiles

L’étude a également exploré l’impact de différentes tailles de lots et de dimensions d’images sur les performances des modèles, constatant que des tailles de lots plus petites (par exemple 16) pouvaient améliorer la réactivité des modèles, tandis que des tailles de lots plus grandes (par exemple 64) accéléraient la convergence de l’entraînement. De plus, l’étude a utilisé la plateforme Google Colab Pro+ et des GPU NVIDIA Tesla T4 pour l’entraînement des modèles, garantissant une efficacité et une extensibilité computationnelles.

Grâce à cette recherche, le système Medivision offre un outil puissant pour la détection précoce et le diagnostic du cancer colorectal, avec un potentiel d’application clinique étendu à l’avenir.