Intégration de données multimodales basée sur l'apprentissage profond pour améliorer la prédiction de la survie sans maladie dans le cancer du sein

Le cancer du sein est l’une des tumeurs malignes les plus courantes chez les femmes dans le monde. Bien que les interventions précoces et les traitements appropriés aient considérablement amélioré le taux de survie des patientes, environ 30 % des cas récidivent et développent des métastases à distance, ce qui entraîne un taux de survie à 5 ans inférieur à 23 %. Les méthodes traditionnelles de prédiction clinique, telles que les biomarqueurs, l’imagerie clinique et les tests moléculaires, bien qu’utiles, présentent des limitations telles qu’une faible sensibilité, des coûts élevés, une disponibilité limitée et une hétérogénéité intra-patient. Par conséquent, le développement de nouvelles méthodes pour prédire de manière fiable le risque de récidive et le taux de survie des patientes atteintes d’un cancer du sein après une intervention chirurgicale, afin d’intervenir à temps et d’améliorer le pronostic global, est devenu un besoin urgent dans la recherche actuelle.

Ces dernières années, le développement rapide des technologies d’intelligence artificielle (IA) a offert de nouvelles possibilités pour la prédiction du pronostic du cancer du sein. Le deep learning, en tant que technologie puissante de l’IA, est capable d’extraire des informations précieuses à partir de données multimodales complexes, combinant des images pathologiques, des données moléculaires et des informations cliniques, ce qui pourrait considérablement améliorer la précision de la prédiction de la survie sans maladie (Disease-Free Survival, DFS) dans le cancer du sein. Cependant, la plupart des études existantes se limitent à des données unimodales, manquant d’une analyse intégrée des données multimodales. Par conséquent, la manière d’intégrer efficacement les données multimodales et de développer des modèles de prédiction de haute précision est devenue un défi majeur dans la recherche actuelle sur le cancer du sein.

Source de l’article

Cette étude a été réalisée par une équipe de recherche composée de Zehua Wang, Ruichong Lin, Yanchun Li et d’autres chercheurs issus de plusieurs institutions, dont l’Université Normale de Pékin - l’Université Baptiste de Hong Kong, l’Université des Sciences et Technologies de Macao et l’Université Sun Yat-sen. L’article a été publié le 29 mai 2024 dans la revue Precision Clinical Medicine, sous le titre “Deep learning-based multi-modal data integration enhancing breast cancer disease-free survival prediction”.

Processus et résultats de la recherche

1. Collecte et prétraitement des données

L’équipe de recherche a collecté de manière rétrospective des images pathologiques, des données moléculaires et des données cliniques provenant de l’Atlas du Génome du Cancer (The Cancer Genome Atlas, TCGA) et d’une institution indépendante en Chine. L’étude a porté sur 1020 patientes atteintes d’un cancer du sein non métastatique, réparties en une cohorte d’entraînement (n=741), une cohorte de validation interne (n=184) et une cohorte de test externe (n=95). Toutes les patientes ont fourni des images pathologiques préopératoires et ont été sélectionnées selon des critères d’inclusion et d’exclusion stricts.

Lors de la phase de prétraitement des données, l’équipe de recherche a amélioré la qualité des images pathologiques et les a segmentées. Toutes les images pathologiques ont été scannées à un grossissement de 20x et traitées à l’aide d’un scanner numérique KF-PRO-005-EX. Les images ont été divisées en patches de 256x256 pixels, et les caractéristiques ont été extraites à l’aide du modèle ResNet50, générant des vecteurs de caractéristiques de 1024 dimensions.

2. Prétraitement des données moléculaires

Pour garantir la qualité et la fiabilité des données moléculaires, l’équipe de recherche a normalisé les informations sur l’expression génique des 741 patientes de la cohorte d’entraînement. À l’aide d’une analyse de régression de Cox univariée, 219 gènes significativement associés au pronostic ont été identifiés. De plus, l’équipe a utilisé l’outil XCell pour analyser les données sur les cellules immunitaires de 96 patientes, quantifiant les profils d’expression de 64 types de cellules immunitaires et stromales.

3. Développement et entraînement du modèle de deep learning

L’équipe de recherche a développé un modèle de deep learning basé sur l’apprentissage multi-instances, appelé DeepClinMed-PGM (Deep Learning Clinical Medicine based Pathological Gene Multi-modal model). Ce modèle intègre des images pathologiques, des données moléculaires et des informations cliniques pour prédire la survie sans maladie des patientes.

Lors de la phase d’extraction des caractéristiques, le modèle a extrait les caractéristiques des patches d’images pathologiques à l’aide de ResNet50, et a pondéré ces caractéristiques à l’aide d’un mécanisme d’auto-attention (Self-Attention Module). Lors de la phase de prédiction de la survie, le modèle a intégré les caractéristiques des images pathologiques, les données moléculaires et les informations cliniques dans une couche entièrement connectée, produisant finalement un score de risque de DFS pour chaque patiente.

4. Évaluation des performances du modèle

L’équipe de recherche a évalué le modèle DeepClinMed-PGM dans les cohortes d’entraînement, de validation interne et de test externe. Les résultats ont montré que les valeurs AUC du modèle pour la prédiction de la DFS à 1, 3 et 5 ans étaient respectivement de 0,979, 0,957 et 0,871 (cohorte d’entraînement), de 0,886, 0,745 et 0,825 (cohorte de validation interne), et de 0,851, 0,878 et 0,938 (cohorte de test externe). De plus, les valeurs de l’indice C du modèle dans les trois cohortes étaient respectivement de 0,925, 0,823 et 0,864, démontrant une précision prédictive élevée.

À l’aide d’une analyse de Kaplan-Meier, l’équipe de recherche a également validé la capacité de stratification des risques du modèle. Dans la cohorte d’entraînement, il existait une différence significative de DFS entre les groupes à haut risque et à faible risque (HR=0,027, IC à 95 % : 0,0016–0,046, p,0001). Cette tendance a également été validée dans les cohortes de validation interne et de test externe.

5. Visualisation et interprétation du modèle

Pour mieux comprendre les mécanismes de prédiction du modèle, l’équipe de recherche a utilisé l’algorithme Grad-CAM pour visualiser les régions clés des images pathologiques. Grâce aux cartes thermiques générées, les chercheurs ont pu identifier les zones de haute densité dans le microenvironnement tumoral, qui sont étroitement liées au pronostic des patientes. De plus, l’équipe a également utilisé l’analyse des voies GO (Gene Ontology) et KEGG (Kyoto Encyclopedia of Genes and Genomes) pour révéler les différences dans l’infiltration des cellules immunitaires et l’expression génique entre les groupes à haut risque et à faible risque.

Conclusion et signification

Le modèle DeepClinMed-PGM développé dans cette étude, en intégrant des images pathologiques, des données moléculaires et des informations cliniques, a considérablement amélioré la précision de la prédiction de la survie sans maladie dans le cancer du sein. Ce modèle a non seulement démontré des performances prédictives exceptionnelles dans plusieurs cohortes, mais a également fourni, grâce aux techniques de visualisation, une compréhension plus approfondie aux cliniciens, les aidant à élaborer des plans de traitement personnalisés.

La valeur scientifique de cette étude réside dans le fait qu’elle est la première à intégrer des données multimodales dans un cadre de deep learning, offrant ainsi une nouvelle méthode pour la prédiction du pronostic du cancer du sein. Sa valeur pratique réside dans sa capacité à aider les cliniciens à évaluer plus précisément le risque de récidive des patientes, permettant ainsi de formuler des stratégies de traitement plus efficaces. De plus, cette étude fournit une référence importante pour le développement futur de modèles de prédiction du pronostic pour d’autres types de cancer.

Points forts de la recherche

  1. Intégration de données multimodales : Première intégration d’images pathologiques, de données moléculaires et d’informations cliniques dans un modèle de deep learning, améliorant significativement la précision prédictive.
  2. Haute performance prédictive : Validation des performances élevées du modèle dans plusieurs cohortes, avec des valeurs AUC et de l’indice C démontrant une excellente capacité prédictive.
  3. Visualisation et interprétabilité : Utilisation de l’algorithme Grad-CAM et des cartes thermiques pour fournir une compréhension approfondie des mécanismes de prédiction du modèle, améliorant son interprétabilité.
  4. Traitement personnalisé : Stratification des risques permettant aux cliniciens d’élaborer des plans de traitement personnalisés, améliorant le taux de survie des patientes.

Autres informations utiles

L’équipe de recherche a également constaté des différences significatives dans l’infiltration des cellules immunitaires et l’expression génique entre les groupes à haut risque et à faible risque, ce qui ouvre de nouvelles perspectives pour la recherche sur l’immunothérapie du cancer du sein. De plus, l’équipe prévoit d’appliquer ce modèle à d’autres types de cancer afin de vérifier sa généralisabilité et son extensibilité.

Cette étude, en intégrant des données multimodales grâce à la technologie du deep learning, offre une nouvelle méthode pour la prédiction du pronostic du cancer du sein, apportant une contribution scientifique et pratique significative.