Génération de Tuiles d'Images Synthétiques de Lames Entières de Tumeurs à partir de Données de Séquençage ARN via des Modèles de Diffusion en Cascade
Génération d’images synthétiques de lames entières de tumeurs à partir de données de séquençage d’ARN via des modèles de diffusion en cascade
Une étude récemment publiée dans Nature Biomedical Engineering intitulée “Generation of Synthetic Whole-Slide Image Tiles of Tumours from RNA-Sequencing Data via Cascaded Diffusion Models” a suscité une large attention. Cette recherche, menée par des chercheurs de plusieurs institutions telles que l’Université de Stanford, l’Université de Gand et le Laboratoire National d’Argonne, vise à résoudre le problème du manque de données sur le cancer afin d’améliorer la performance des modèles d’apprentissage automatique dans la détection du cancer. Les auteurs de cet article incluent Francisco Carrillo-Perez, Marija Pizurica, Yuanning Zheng, Tarak Nath Nandi, Ravi Madduri, Jeanne Shen et Olivier Gevaert.
Contexte et motivation de la recherche
Le cancer est l’une des principales causes de mortalité dans le monde, après les maladies cardiovasculaires. Dans un environnement clinique, les médecins diagnostiquent souvent le cancer via plusieurs méthodes de dépistage, y compris l’examen visuel de lames histologiques numérisées ou la régulation spécifique des gènes du patient. Cependant, ces méthodes de dépistage, en raison de leurs coûts ou de contraintes logistiques, ne sont souvent pas appliquées de manière exhaustive sur le même patient. Le cancer est une maladie multi-échelle et multifactorielle, et ses effets peuvent se manifester à plusieurs niveaux. Les variations génétiques des cellules tumorales et des cellules du microenvironnement tumoral entraînent des changements fonctionnels qui influencent leur physiologie cellulaire. Par conséquent, l’absence de toutes les méthodes de dépistage peut faire perdre des informations cruciales pour une détection précoce.
Ces dernières années, l’apprentissage automatique, en particulier l’apprentissage profond (Deep Learning, DL), a montré un énorme potentiel dans la détection et la classification des cancers. En utilisant différentes données multimodales, telles que le séquençage d’ARN (RNA-seq), l’imagerie de lames entières (WSI), le séquençage de micro-ARN (miRNA-seq) ou les données de méthylation de l’ADN, de nombreux systèmes de soutien à la décision clinique prometteurs ont été développés. Cependant, les données sur le cancer présentent deux problèmes : premièrement, les modèles DL sont basés sur les données et nécessitent un grand nombre de données pour un entraînement adéquat ; deuxièmement, même dans un environnement multimodal, la combinaison de types de données biologiques a montré une meilleure performance dans la détection et le pronostic du cancer, mais la plupart des ensembles de données existants sont souvent incomplets, manquant de certaines modalités.
Contenu de la recherche
Cette étude propose une méthode basée sur des modèles de diffusion en cascade pour résoudre les problèmes mentionnés ci-dessus en utilisant des modèles génératifs tels que les réseaux adversariaux génératifs (GAN) et les autoencodeurs variationnels (VAE). Elle montre que les modèles de diffusion en cascade peuvent être utilisés pour synthétiser des images de lames entières réalistes sous la représentation latente des données de séquençage d’ARN des tissus tumoraux.
L’étude comprend principalement les étapes suivantes :
a) Détails du flux de recherche
Prétraitement et acquisition des données : Les données ont été obtenues à partir de la base de données TCGA, qui contient des échantillons couplés RNA-seq et WSI. Les données RNA-seq ont été téléchargées et prétraitées, incluant l’alignement et la quantification des lectures de séquençage brut, pour finalement obtenir les données d’expression de 17655 gènes. Ces données ont été logarithmiquement transformées et normalisées par Z-score.
Beta-VAE générant des représentations latentes multi-cancéreuses : 12 types de cancers ont été sélectionnés pour entraîner le modèle Beta-VAE afin de générer une représentation latente de faible dimension des données RNA-seq. L’encodeur et le décodeur du Beta-VAE sont constitués chacun de deux couches cachées, et la dimension de l’espace latent est de 200 caractéristiques. En entraînant pendant 250 cycles avec l’erreur quadratique moyenne (MSE) et l’optimiseur Adam, les représentations latentes obtenues peuvent reconstruire avec précision les données RNA-seq.
Génération RNA-to-Image multi-cancéreuse basée sur un modèle de diffusion en cascade RNA-CDM : Le modèle de diffusion en cascade comprend un modèle de diffusion à faible résolution (64×64 pixels) en tant que modèle RNA-to-Image et un modèle de super-résolution (256×256 pixels) entraîné sous condition avec les représentations latentes générées par le modèle Beta-VAE. Pendant l’entraînement, du bruit est progressivement ajouté aux images, et le modèle apprend à débruiter, de sorte que le modèle peut générer des images synthétiques haute résolution de lames entières lorsque les encodages latents RNA-seq sont donnés.
Entraînement et évaluation du modèle : HoverNet a été utilisé pour classifier et segmenter les types de cellules dans les images réelles et synthétiques afin d’évaluer la qualité des images générées. De plus, l’algorithme d’uniform manifold approximation and projection (UMAP) a été utilisé pour visualiser les données RNA-seq reconstruites de différents tissus cancéreux, vérifiant la capacité de généralisation du modèle.
b) Principaux résultats de la recherche
L’étude a validé la réalité des images générées en comparant la détection des cellules par HoverNet dans les images réelles et synthétiques. Pour cinq types de cancers (adénocarcinome pulmonaire, cancer du rein, carcinome épidermoïde du col de l’utérus, cancer du côlon et glioblastome), les résultats de détection des cellules dans les images réelles et synthétiques étaient similaires. Une analyse quantitative supplémentaire a montré que les images générées peuvent maintenir la morphologie cellulaire réelle et les proportions spécifiques de cellules, et que les changements dans les marqueurs d’expression génique dans les données RNA-seq peuvent influencer la fréquence d’apparition des types de cellules correspondants.
Cette recherche a également montré que l’entraînement préalable basé sur des données synthétiques peut améliorer la performance des modèles d’apprentissage automatique dans les tâches de classification biomédicale. Des expériences remplaçant une partie de l’ensemble de données d’entraînement avec des données synthétiques ont montré que ces données peuvent remplacer avec précision les données réelles sans affecter la performance des tâches de classification. En entraînant d’abord le modèle avec toutes les données synthétiques, puis en le peaufiner avec un petit nombre d’échantillons réels, la stratégie a démontré une amélioration significative de l’exactitude et du score F1 du modèle de classification.
c) Conclusion et valeur de l’étude
Le modèle RNA-CDM proposé par cette étude non seulement atténue le problème de la rareté des données, mais accélère également le développement et l’amélioration des performances des modèles d’apprentissage automatique en générant des images synthétiques de lames entières réalistes. La méthode de synthèse multi-cancéreuse RNA-to-Image du RNA-CDM peut non seulement être utilisée pour l’augmentation des données, mais aussi pour identifier de nouvelles caractéristiques morphologiques liées à des états biologiques moléculaires cliniquement pertinents non reconnus par l’œil humain.
d) Points forts de la recherche
Innovation méthodologique : C’est la première fois qu’un modèle de diffusion en cascade est utilisé pour la synthèse RNA-to-Image, utilisant une seule architecture pour générer des images de lames histologiques de plusieurs types de cancers. Cela est plus efficace que les méthodes antérieures nécessitant un entraînement séparé pour chaque type de cancer.
Large potentiel d’application : Les données synthétiques peuvent non seulement être utilisées pour l’augmentation des données, mais aussi pour l’entraînement préalable des modèles d’apprentissage automatique, améliorant ainsi efficacement la performance des tâches réelles.
e) Autres informations précieuses
Les futures recherches pourraient combiner des techniques de transcriptomique spatiale pour générer des données de référence sur l’expression locale de l’ARN, ce qui améliorera encore la précision du modèle. De plus, les futures recherches devraient se concentrer sur le développement de stratégies computationnelles innovantes pour traiter des tâches de génération à plus haute résolution ou sur des lames entières. Ces avancées amélioreront davantage la valeur d’application du modèle RNA-CDM dans la détection et la classification du cancer.