Segmentation des tumeurs mammaires ABVS via l'intégration du CNN avec l'auto-attention par échantillonnage dilaté et le Transformer d'interaction de caractéristiques
Segmentation des tumeurs mammaires ABVS basée sur CNN et Dilated Sampling Self-Attention
Contexte académique
Le cancer du sein est le deuxième cancer le plus courant dans le monde, et une détection précoce et précise est essentielle pour améliorer le pronostic des patients et réduire la mortalité. Bien que plusieurs techniques d’imagerie (telles que la mammographie par rayons X, l’imagerie par résonance magnétique et l’échographie portative) soient utilisées pour le dépistage précoce du cancer du sein, ces techniques sont souvent confrontées à des problèmes de résolution limitée ou de dépendance opérationnelle. Pour résoudre ces problèmes, l’Automated Breast Volume Scanner (ABVS) a été développé. L’ABVS permet d’obtenir une vue complète de l’ensemble du sein de manière automatisée, mais l’analyse de ses images reste un défi en raison des variations significatives de taille, de forme et de localisation des tumeurs mammaires. Ces dernières années, l’apprentissage profond a fait des progrès significatifs dans l’analyse d’images médicales, en particulier les réseaux de neurones convolutifs (CNN) et les transformateurs (Transformer) qui ont montré des performances remarquables dans les tâches de segmentation et de détection des tumeurs. Cependant, les méthodes CNN existantes présentent des limitations dans la capture d’informations contextuelles globales, tandis que les architectures de transformateurs purs ont un coût de calcul élevé pour le traitement des grandes images médicales 3D. Par conséquent, la combinaison efficace des avantages des CNN et des transformateurs est devenue une direction de recherche importante.
Source de l’article
Cet article a été co-écrit par Yiyao Liu, Jinyao Li, Yi Yang et d’autres auteurs, issus de la School of Biomedical Engineering, Health Science Center, Shenzhen University et du Department of Ultrasonics, Union Shenzhen Hospital, Huazhong University of Science and Technology. L’article a été publié en 2025 dans la revue Neural Networks, sous le titre « ABVS Breast Tumour Segmentation via Integrating CNN with Dilated Sampling Self-Attention and Feature Interaction Transformer ».
Processus de recherche
1. Conception de l’étude et architecture du réseau
Cette étude propose un nouveau réseau de segmentation 3D, DST-C, qui combine un réseau de neurones convolutifs (CNN) et un transformateur à auto-attention par échantillonnage dilaté (Dilated Sampling Self-Attention Transformer, DST). L’idée centrale du réseau est d’extraire des informations locales détaillées via la branche CNN et de capturer des caractéristiques globales via la branche DST, afin d’atteindre une segmentation plus précise des tumeurs. Plus précisément, le réseau se compose des éléments suivants :
- Branche CNN : Utilise un réseau à connexions résiduelles (Residual Connection Network) pour extraire les caractéristiques locales détaillées de l’image.
- Branche DST : Basée sur le Swin Transformer (ST), elle introduit un mécanisme d’auto-attention par échantillonnage dilaté pour élargir le champ récepteur et réduire la complexité de calcul.
- Pont d’attention spatiale-canal (SCA) : Utilisé pour connecter les branches CNN et DST, fusionnant les caractéristiques locales et globales via des mécanismes d’attention spatiale et canal.
- Décodeur : Fusionne les caractéristiques des deux branches et restaure la résolution de l’image via des opérations de suréchantillonnage.
2. Stratégie d’apprentissage auto-supervisé
Pour résoudre le problème de la rareté des données annotées en imagerie médicale, cette étude propose une stratégie d’apprentissage auto-supervisé (Self-Supervised Learning, SSL) basée sur la modélisation d’images masquées (Mask Image Modelling, MIM). Les étapes spécifiques sont les suivantes :
- Génération de masques : Masque aléatoirement l’image d’entrée avec des cubes, la taille et la proportion du masque étant déterminées expérimentalement.
- Extraction de caractéristiques : La branche CNN traite les images non masquées, tandis que la branche DST traite les images masquées et extrait les caractéristiques.
- Reconstruction des caractéristiques : Un décodeur simple reconstruit les zones masquées, et la perte L1 au niveau des caractéristiques et des pixels est calculée pour optimiser le réseau.
3. Algorithme de post-traitement
Pour améliorer la sensibilité de la détection des tumeurs et réduire le taux de faux positifs, cette étude conçoit un algorithme de croissance de région à seuil adaptatif et à portée locale. Cet algorithme ajuste dynamiquement le seuil de segmentation en comparant les maxima globaux et locaux, permettant une identification plus précise des zones tumorales.
4. Expériences et évaluation
L’étude a mené des expériences sur trois ensembles de données : un ensemble de données ABVS collecté en interne, l’ensemble de données CT KITS19 public et l’ensemble de données d’échographie mammaire 3D TDSC-ABUS 2023. Les résultats expérimentaux montrent que le réseau DST-C atteint un coefficient de Dice de 73,65 % pour la segmentation sur l’ensemble de données ABVS, avec une sensibilité de 91,67 %, surpassant significativement d’autres méthodes comparatives. Sur l’ensemble de données KITS19, le coefficient de Dice pour la segmentation des reins est de 98,03 %, et celui pour la segmentation des tumeurs rénales est de 87,24 %, démontrant également d’excellentes performances.
Résultats principaux
- Efficacité de l’architecture du réseau : Les expériences montrent que le réseau DST-C excelle dans la fusion des détails locaux et des informations contextuelles globales. Par rapport à une seule branche CNN ou ST, la structure à double branche améliore significativement la précision de la segmentation.
- Contribution de l’apprentissage auto-supervisé : Grâce à la stratégie SSL, les performances de segmentation du réseau sont significativement améliorées après le pré-entraînement sur des données non annotées. La meilleure taille de masque est de 4, avec un ratio de masque de 40 %.
- Optimisation de l’algorithme de post-traitement : L’algorithme de croissance de région à seuil adaptatif réduit efficacement le taux de faux positifs tout en maintenant une sensibilité élevée.
- Validation sur plusieurs ensembles de données : DST-C montre d’excellentes performances sur les ensembles de données ABVS, KITS19 et TDSC-ABUS, prouvant sa capacité de généralisation.
Conclusion et signification
Le réseau DST-C proposé dans cette étude, en combinant les avantages des CNN et des DST, résout avec succès le défi de la segmentation des tumeurs mammaires dans les images ABVS. Ses points d’innovation incluent : - Structure à double branche : Fusionne efficacement les détails locaux et les informations contextuelles globales. - Mécanisme d’auto-attention par échantillonnage dilaté : Élargit le champ récepteur du transformateur et réduit la complexité de calcul. - Stratégie d’apprentissage auto-supervisé : Résout le problème de la rareté des données annotées en imagerie médicale. - Algorithme de post-traitement adaptatif : Améliore la précision et la sensibilité de la détection des tumeurs.
Cette étude fournit non seulement une nouvelle solution pour la segmentation automatisée des tumeurs mammaires, mais offre également une référence précieuse pour d’autres tâches de segmentation d’images médicales.
Points forts de la recherche
- Architecture de réseau innovante : Le réseau DST-C combine pour la première fois les CNN avec un transformateur à auto-attention par échantillonnage dilaté, réalisant une fusion efficace des caractéristiques locales et globales.
- Application de l’apprentissage auto-supervisé : Grâce à la modélisation d’images masquées, il exploite pleinement les données non annotées pour améliorer les performances du modèle.
- Validation sur plusieurs ensembles de données : La capacité de généralisation du modèle est prouvée sur plusieurs ensembles de données publics et privés.
- Optimisation de l’algorithme de post-traitement : L’algorithme de croissance de région à seuil adaptatif améliore significativement la précision de la détection des tumeurs.
Autres informations utiles
Cette étude explore également l’impact de différentes tailles et proportions de masques sur l’efficacité de l’apprentissage auto-supervisé, fournissant une base expérimentale pour les recherches futures. De plus, l’équipe de recherche a rendu le code public, facilitant la reproduction et l’amélioration par d’autres chercheurs.
Cette étude offre de nouvelles idées et méthodes pour la segmentation automatisée des tumeurs mammaires, avec une signification scientifique et une valeur clinique importantes.