Distillation de la Détection de Cellules de Lésions Cervicales Multi-Classes par Préformation Assistée par Synthèse et Alignement des Caractéristiques de Niveau de Patch
Distillation de la détection des cellules de lésions cervicales multi-classes via la pré-formation assistée par synthèse et l’alignement des caractéristiques au niveau des patchs
Contexte et signification de la recherche
Le cancer du col de l’utérus est une maladie qui menace sérieusement la vie et la santé des femmes. Selon les données de l’Agence internationale de recherche sur le cancer (IARC), environ 604 000 nouveaux cas de cancer du col de l’utérus ont été enregistrés dans le monde en 2020, avec environ 342 000 décès (Sung et al., 2021). Le diagnostic précoce et le dépistage du cancer du col de l’utérus permettent de prévenir et de traiter efficacement la maladie, tandis que les retards de diagnostic augmentent les risques de complications graves et de danger de mort (Schiffman, Castle, Jeronimo, Rodriguez, & Wacholder, 2007). Actuellement, les organisations de santé du monde entier recommandent le dépistage précoce comme une méthode efficace de prévention et de traitement du cancer du col de l’utérus (A. C. of Obstetricians, Gynecologists et al., 2010). Le test cytologique en couche mince (TCT) est la méthode de dépistage la plus couramment utilisée et la plus efficace pour détecter les anomalies cervicales et les lésions précancéreuses (Davey et al., 2006).
Cependant, la méthode traditionnelle de lecture manuelle des lames en utilisant des images à champ complet (WSI) dans les examens TCT est non seulement longue, mais aussi sujette aux erreurs, et les résultats de diagnostic peuvent varier considérablement entre les différents lecteurs (Bengtsson & Malm, 2014). En conséquence, le développement de méthodes d’analyse automatisée des cellules cervicales est devenu particulièrement urgent pour aider les cytologistes à analyser efficacement et précisément les images pathologiques des cellules cervicales, permettant ainsi un diagnostic objectif.
Du point de vue clinique, l’objectif principal du dépistage TCT cervical est de détecter les cellules de lésions cervicales dans les images WSI et de les classer en différents stades de lésions selon les règles du système Bethesda (TBS) (Nayar & Wilbur, 2017). Cependant, en raison du grand nombre d’échantillons d’images WSI, l’étape initiale de la détection des cellules cervicales exige une grande sensibilité pour éviter de manquer des cellules anormales, ce qui est crucial pour l’analyse ultérieure (Zhou et al., 2021).
Ces dernières années, les progrès des technologies d’apprentissage profond ont considérablement amélioré l’efficacité de la détection des cellules de lésions cervicales. Par exemple, le Faster R-CNN (Ren et al., 2015) et le RetinaNet (Lin et al., 2017). Cependant, ces méthodes rencontrent encore plusieurs problèmes, tels que l’annotation incomplète, le déséquilibre des classes et l’utilisation insuffisante des informations contextuelles entre les cellules (Zhang, Liu, et al., 2019). Pour résoudre ces problèmes, cet article propose un cadre basé sur la distillation, visant à guider l’entraînement du réseau de détection au niveau de l’image à l’aide d’un réseau de pré-formation au niveau des patchs.
Introduction de la source
Cet article intitulé « Distillation of Multi-Class Cervical Lesion Cell Detection via Synthesis-Aided Pre-Training and Patch-Level Feature Alignment » a été rédigé par Manman Fei, Zhenrong Shen, Zhiyun Song, Xin Wang, Linlin Yao, Xiangyu Zhao, Lichi Zhang (*auteur correspondant) de l’École de génie biomédical de l’Université Jiaotong de Shanghai, en collaboration avec Maosong Cao et Qian Wang de l’École de génie biomédical de l’Université des sciences et technologies de Shanghai. L’article a été publié dans le journal « Neural Networks » en 2024.
Description détaillée des travaux de recherche
Processus de recherche
Cette étude comprend plusieurs étapes et méthodes importantes :
Conception du modèle de pré-formation équilibrée au niveau des patchs (BPM) :
- Une modèle de classification des cellules cervicales au niveau des patchs, appelé Modèle de Pré-Formation Équilibrée (Balanced Pre-Training Model, BPM), a été proposé. Un modèle de synthèse d’image a été utilisé pour construire un ensemble de données de patchs équilibré pour la pré-formation.
- Utilisation de CellGAN pour générer des données synthétiques, garantissant une distribution équilibrée des classes dans les données d’entraînement, afin d’atténuer le problème de déséquilibre des classes.
- Le processus d’entraînement comprend deux étapes : une formation initiale avec des données synthétiques, suivie d’un ajustement fin avec des données réelles.
Perte de correction des scores (SCL) :
- En concevant la perte de correction des scores (Score Correction Loss, SCL), le réseau de détection peut distiller des connaissances du modèle BPM, réduisant ainsi le problème de l’annotation incomplète.
- Le SCL vise à corriger les scores de confiance du modèle de détection en comparant les scores de patchs prévus par le BPM avec les scores produits par le réseau de détection.
Stratégie de cohérence des corrélations de patchs (PCC) :
- Conception de la stratégie de cohérence des corrélations des patchs (Patch Correlation Consistency, PCC) pour utiliser les informations de corrélation extraites des cellules, améliorant l’apprentissage de la représentation des caractéristiques dans le processus de détection.
- Le PCC capture les relations contextuelles entre les cellules en calculant la cohérence entre les caractéristiques extraites par le réseau de détection et le réseau BPM.
Résultats principaux
Résultats expérimentaux
Les méthodes proposées ont été vérifiées sur des ensembles de données publics et privés :
Ensemble de données ComparisionDetector :
- Cet ensemble de données contient 7 410 images pathologiques de cellules cervicales. Les résultats expérimentaux montrent que le détecteur DINO combiné avec ce cadre de distillation a obtenu des résultats satisfaisants sur cet ensemble de données, avec une précision moyenne (AP) de 24.6, AP@0.5 de 44.7, AP@0.75 de 23.6 et un rappel moyen (AR) de 46.6.
- Par rapport aux méthodes existantes les plus performantes, la méthode proposée améliore l’AP, AP@0.5, AP@0.75 et l’AR de respectivement 4.0, 3.2, 5.9 et 8.5.
Ensemble de données DST :
- Cet ensemble de données provient d’un hôpital partenaire, contenant 3 807 images de 1024×1024 pixels découpées à partir de WSI. Les résultats expérimentaux montrent que le détecteur DINO combiné avec la méthode proposée présente des performances excellentes, avec une AP de 15.4, AP@0.5 de 26.3, AP@0.75 de 16.5 et un AR de 45.1.
- Par rapport au modèle DINO original, la méthode proposée montre une amélioration significative en AP, AP@0.5, AP@0.75, et AR.
Expérimentation d’ablation
Pour vérifier l’efficacité de chaque composant, une série d’expériences d’ablation ont été menées. Les résultats de l’étude montrent que le modèle de pré-formation équilibrée (BPM), la perte de correction des scores (SCL) et la stratégie de cohérence des corrélations des patchs (PCC) ont chacun un rôle important. En particulier, le modèle BPM combiné avec des données synthétiques peut améliorer de manière significative la précision du réseau de classification, renforçant ainsi la précision globale du modèle de détection.
Conclusion et signification
En proposant un cadre de distillation novateur, cet article résout plusieurs problèmes clés dans la détection des cellules cervicales. En combinant un réseau de classification au niveau des patchs avec des stratégies de correction des scores et de cohérence des corrélations des patchs, la méthode proposée améliore considérablement les performances des détecteurs existants dans la détection des cellules de lésions cervicales multi-classes. Cela a une valeur scientifique importante et aide également au développement de méthodes de dépistage à haut débit du cancer du col de l’utérus en application clinique.
Points forts de la recherche
- Cadre de distillation novateur : Utilisation d’un réseau de classification au niveau des patchs pour guider l’entraînement du réseau de détection au niveau des images, combinant pour la première fois des réseaux de classification des cellules du cancer du col de l’utérus dans une méthode de distillation afin d’optimiser la détection des cellules anormales.
- Résolution de multiples problèmes : Résolution effective des problèmes d’annotation incomplète, de déséquilibre des classes et de l’utilisation insuffisante des relations intercellulaires.
- Flexibilité universelle : La méthode peut être appliquée de manière transparente à divers détecteurs, sans nécessiter de modifications de leur structure à l’étape de l’inférence.
Les résultats de cette recherche montrent qu’en utilisant la méthode proposée pour la détection des cellules anormales cervicales, non seulement la précision de détection est améliorée, mais cela fournit également un précieux support technique pour l’application clinique réelle, avec une valeur d’application potentielle étendue.