Algorithmes d'apprentissage profond pour la détection du cancer du sein dans une cohorte de dépistage au Royaume-Uni : en tant que lecteurs autonomes et combinés avec des lecteurs humains

Algorithmes d’apprentissage profond pour la détection du cancer du sein dans une cohorte de dépistage britannique

Contexte académique

Le cancer du sein est l’un des cancers les plus fréquents chez les femmes à l’échelle mondiale, et le dépistage précoce est crucial pour améliorer les taux de guérison. Les systèmes traditionnels de détection assistée par ordinateur (Computer-Aided Detection, CAD) ont été largement utilisés dans le dépistage par mammographie, en particulier aux États-Unis. Cependant, bien que ces systèmes aient augmenté les taux de rappel, ils n’ont que peu amélioré les performances des lecteurs (c’est-à-dire des radiologues). Ces dernières années, l’utilisation des algorithmes d’apprentissage profond (Deep Learning, DL) dans l’analyse d’images médicales a connu une croissance rapide, en particulier dans le domaine du dépistage du cancer du sein. Plusieurs revues systématiques et méta-analyses ont montré que les preuves de l’efficacité des algorithmes DL dans le dépistage par mammographie ont augmenté rapidement depuis 2017. Bien que certaines études aient montré que les algorithmes DL en tant que lecteurs uniques ne sont pas inférieurs aux lecteurs humains, aucun algorithme autonome n’a jusqu’à présent démontré une performance supérieure à celle du double lecture standard tout en maintenant des taux de rappel acceptables. Par conséquent, les algorithmes DL ne peuvent pas encore remplacer complètement les lecteurs humains dans les systèmes de double lecture.

Cependant, les études existantes présentent certaines limites, telles que l’utilisation de petites cohortes de test, le manque de validation externe et l’absence de seuils de performance prédéfinis. De plus, de nombreuses études n’incluent pas de données sur les cancers d’intervalle (interval cancers) et les cancers détectés lors du prochain cycle de dépistage, qui sont essentiels pour évaluer l’efficacité des algorithmes DL dans la détection précoce. Par conséquent, cette étude vise à valider les performances de trois algorithmes DL dans un ensemble de données externe indépendant, en explorant leurs performances en tant que lecteurs autonomes et en combinaison avec des lecteurs humains.

Source de l’article

Cet article a été rédigé par Sarah E. Hickman et al., des auteurs issus du département de radiologie de l’École de médecine clinique de l’Université de Cambridge, de l’Hôpital Royal de Londres, du Cambridge University Hospitals NHS Foundation Trust, entre autres institutions. L’article a été publié en novembre 2024 dans la revue Radiology, sous le titre Deep Learning Algorithms for Breast Cancer Detection in a UK Screening Cohort: As Stand-Alone Readers and Combined with Human Readers.

Processus et résultats de la recherche

Processus de recherche

Cette étude rétrospective a utilisé des données de mammographie provenant de deux sites de dépistage britanniques (Cambridge et Norwich), couvrant la période de janvier à décembre 2017. L’étude a inclus 26 722 cas, dont 332 cancers détectés lors du dépistage, 174 cancers d’intervalle et 254 cancers détectés lors du prochain cycle de dépistage. L’objectif principal de l’étude était de valider les performances de trois algorithmes DL commerciaux (DL-1, DL-2 et DL-3) en tant que lecteurs autonomes et en combinaison avec des lecteurs humains.

L’étude a suivi les étapes suivantes :

  1. Collecte et traitement des données : L’étude a utilisé les données de mammographie provenant de la base de données Cambridge Cohort – East Anglia Digital Imaging Archive (CC-MEDIA). Toutes les images ont été stockées au format DICOM et accompagnées des métadonnées cliniques correspondantes. Les cas ne répondant pas aux critères, tels que l’absence d’images mammographiques à deux vues ou de labels de vérité terrain, ont été exclus.

  2. Déploiement et évaluation des algorithmes DL : Les trois algorithmes DL ont été déployés dans l’institution de recherche de Cambridge entre janvier et juin 2022 et évalués à l’aide de l’ensemble de données de l’étude. Les détails de l’entraînement des algorithmes ont été décrits dans des publications antérieures.

  3. Évaluation des performances : Un seuil de spécificité équivalent à celui d’un lecteur unique (96,5 %) a été prédéfini, et les performances des algorithmes DL en tant que lecteurs autonomes et en combinaison avec des lecteurs humains ont été évaluées. Les principaux indicateurs d’évaluation étaient la sensibilité et la spécificité, avec un niveau de significativité statistique fixé à p < 0,025.

Principaux résultats

  1. Comparaison entre la lecture autonome par DL et la lecture unique par un humain : Avec le seuil prédéfini, les sensibilités de DL-1 et DL-3 étaient respectivement de 64,8 % et 58,9 %, toutes deux non inférieures à celles du lecteur humain unique (62,8 %). Les spécificités de DL-1 et DL-2 étaient respectivement de 92,8 % et 96,8 %, toutes deux non inférieures à celles du lecteur humain unique (96,5 %), tandis que la spécificité de DL-3 était de 97,9 %, supérieure à celle du lecteur humain unique.

  2. Comparaison entre la lecture combinée DL-humain et la double lecture : Lorsque les algorithmes DL étaient combinés avec un lecteur humain, les sensibilités étaient respectivement de 67,0 %, 65,6 % et 65,4 %, toutes non inférieures à celles du système de double lecture (67,4 %). Les spécificités étaient respectivement de 97,4 %, 97,6 % et 97,6 %, toutes supérieures à celles du système de double lecture (97,1 %). Cependant, le taux d’arbitrage (c’est-à-dire la proportion de cas nécessitant une révision en raison de discordances dans les décisions des lecteurs) a augmenté.

  3. Détection des cancers d’intervalle et des cancers du prochain cycle : Les algorithmes DL ont surpassé les lecteurs humains dans la détection des cancers d’intervalle et des cancers du prochain cycle. DL-1, DL-2 et DL-3 ont détecté respectivement 23,6 %, 13,2 % et 13,2 % des cancers d’intervalle, ainsi que 23,2 %, 12,6 % et 7,1 % des cancers du prochain cycle, tandis que le lecteur humain n’a détecté que 9,2 % des cancers d’intervalle et 5,1 % des cancers du prochain cycle.

Conclusion

Cette étude montre que les trois algorithmes DL commerciaux, en tant que lecteurs autonomes, ne sont pas inférieurs aux lecteurs humains uniques, et que, lorsqu’ils sont combinés avec des lecteurs humains, ils peuvent maintenir la même précision de dépistage que le système de double lecture. Cela fournit un soutien solide à l’utilisation des algorithmes DL comme complément aux lecteurs humains, réduisant la charge de travail et améliorant l’efficacité du dépistage. Cependant, les algorithmes DL ne peuvent pas encore remplacer complètement les lecteurs humains dans les systèmes de double lecture, et des recherches futures devront explorer les meilleures façons d’appliquer ces algorithmes dans différents programmes de dépistage.

Points forts de l’étude

  1. Validation indépendante : Cette étude est la première à valider les performances de trois algorithmes DL commerciaux dans un ensemble de données externe indépendant, garantissant la fiabilité et la généralisabilité des résultats.
  2. Données multicentriques : L’étude a utilisé des données provenant de deux sites de dépistage britanniques, couvrant des équipements mammographiques de différents fabricants, renforçant l’applicabilité large des résultats.
  3. Détection des cancers d’intervalle et des cancers du prochain cycle : Les algorithmes DL ont surpassé les lecteurs humains dans la détection des cancers d’intervalle et des cancers du prochain cycle, démontrant leur potentiel dans la détection précoce du cancer.
  4. Avantages de la lecture combinée DL-humain : La combinaison des algorithmes DL avec des lecteurs humains permet de maintenir la même précision de dépistage que le système de double lecture tout en réduisant la charge de travail, offrant de nouvelles perspectives pour les futurs programmes de dépistage.

Importance de l’étude

Cette étude fournit un soutien empirique important à l’utilisation des algorithmes DL dans le dépistage du cancer du sein, montrant qu’ils peuvent être un complément efficace aux lecteurs humains, réduisant la charge de travail et améliorant l’efficacité du dépistage. Les recherches futures devront explorer les meilleures façons d’appliquer ces algorithmes dans différents programmes de dépistage et évaluer leurs effets à long terme dans des environnements cliniques réels.