Apprentissage par cartographie contrastive pour la reconstruction spatiale des données de séquençage d'ARN unicellulaire

La technologie de séquençage d’ARN monocellulaire (scRNA-seq) permet une analyse transcriptomique à haut débit à la résolution d’une seule cellule, ce qui a considérablement fait progresser la recherche en biologie cellulaire. Cependant, une limitation notable de la technologie scRNA-seq est qu’elle nécessite la dissociation des tissus, ce qui entraîne la perte des informations sur la position spatiale d’origine des cellules dans le tissu. Les technologies de transcriptomique spatiale (Spatial Transcriptomics, ST) peuvent fournir un atlas précis de l’expression génique spatiale, mais elles présentent des limitations en termes de nombre de gènes détectés, de coûts et de finesse des annotations des types cellulaires. Par conséquent, la manière de restaurer les informations spatiales dans les données scRNA-seq est devenue un défi majeur dans la recherche actuelle.

Pour résoudre ce problème, les chercheurs ont proposé des méthodes de transfert de connaissances entre les données scRNA-seq et ST par le biais de l’apprentissage de correspondance cellulaire (cell correspondence learning), afin de restaurer les informations spatiales dans les données scRNA-seq. Cependant, les méthodes existantes présentent des lacunes dans la modélisation des relations locales et globales et dans l’intégration des informations sur les types cellulaires, ce qui limite la précision de la cartographie spatiale.

Source de l’article

Cet article a été co-écrit par une équipe de chercheurs de la City University of Hong Kong, de l’Université de Shantou, du Medical College de l’Université de Shantou et de la South China University of Technology. Les auteurs principaux incluent Xindian Wei, Tianyi Chen, Xibiao Wang, et les auteurs correspondants sont Cheng Liu de l’Université de Shantou et Hau-San Wong de la City University of Hong Kong. L’article a été publié le 24 février 2025 dans la revue Bioinformatics, sous le titre “COME: Contrastive Mapping Learning for Spatial Reconstruction of Single-Cell RNA Sequencing Data”.

Processus et résultats de la recherche

Processus de recherche

Le cœur de la méthode COME consiste à établir une relation de correspondance entre les données scRNA-seq et ST à travers un cadre d’apprentissage contrastif (contrastive learning framework), afin de restaurer les informations spatiales des données scRNA-seq. Le processus de recherche comprend les étapes suivantes :

  1. Prétraitement des données
    L’étude a utilisé des ensembles de données scRNA-seq et ST provenant de trois systèmes biologiques différents (embryon de drosophile, cortex visuel primaire de souris et pancréas humain cancéreux). Tout d’abord, les chercheurs ont normalisé les données pour s’assurer que l’expression génique totale de chaque cellule était cohérente. Ensuite, en sélectionnant les gènes communs aux données scRNA-seq et ST, les deux modalités de données ont été alignées.

  2. Apprentissage de correspondance cellulaire
    L’étude a utilisé un autoencodeur partagé (autoencoder) pour extraire les représentations latentes des données scRNA-seq et ST. En décodant les codes latents des données scRNA-seq, les données spatiales reconstruites ont été générées. En outre, une couche de coefficients (coefficient layer) a été introduite pour apprendre la correspondance entre les données scRNA-seq et le domaine spatial. La matrice de coefficients (coefficient matrix) a été utilisée pour capturer la force d’association entre les cellules et les points spatiaux.

  3. Module d’apprentissage contrastif
    Pour améliorer la capacité de différenciation des représentations des caractéristiques latentes, un module d’apprentissage contrastif a été conçu. Ce module comprend un apprentissage contrastif basé sur les types cellulaires (cell-type contrastive learning) et un apprentissage contrastif inter-modalités (inter-contrastive learning). L’apprentissage contrastif basé sur les types cellulaires utilise les informations sur les types cellulaires des données scRNA-seq pour rapprocher les cellules de même type dans l’espace latent. L’apprentissage contrastif inter-modalités, quant à lui, utilise la matrice de correspondance pour rendre les représentations des caractéristiques latentes des données scRNA-seq et ST plus cohérentes.

  4. Optimisation et évaluation
    Les chercheurs ont optimisé le modèle de réseau en combinant la perte de reconstruction, la perte de régularisation des coefficients et la perte de régularisation de la similarité structurelle. Enfin, en prédisant les positions spatiales des cellules scRNA-seq, l’efficacité de la méthode COME a été validée. Les métriques d’évaluation incluent le coefficient de corrélation de Pearson (PCC), l’indice de similarité structurelle (SSIM), l’erreur quadratique moyenne (RMSE), etc.

Principaux résultats

  1. Reconstruction de l’expression génique spatiale
    Les expériences sur les données de l’embryon de drosophile ont montré que la méthode COME surpasse significativement les autres méthodes dans la reconstruction de l’expression génique spatiale. La médiane du PCC de COME était significativement plus élevée que celle des autres méthodes, en particulier dans la reconstruction de gènes ayant des caractéristiques spatiales claires (comme twi, ftz et cg11208), où les performances de COME étaient particulièrement remarquables.

  2. Analyse des données de transcriptomique spatiale à résolution cellulaire
    Dans les expériences sur les données du cortex visuel primaire de souris, la méthode COME a excellé dans la prédiction des modèles d’expression génique spatiale. En particulier, sur le jeu de données STARmap, la médiane du PCC de COME a atteint 0,233, soit une amélioration de 12 % par rapport à la deuxième meilleure méthode. En outre, COME a pu inférer avec précision la distribution stratifiée des neurones glutamatergiques (glutamatergic neurons) dans le tissu, en accord avec les résultats des études précédentes.

  3. Déconvolution spatiale
    Dans les expériences sur les données du pancréas humain cancéreux, la méthode COME a réussi à distinguer la distribution des types cellulaires dans les zones cancéreuses et non cancéreuses. COME a pu prédire avec précision la position des principaux types cellulaires dans le microenvironnement tumoral (TME) et a montré une forte cohérence avec les modèles d’expression des gènes marqueurs. En revanche, d’autres méthodes (comme Tangram et GraphST) ont obtenu de moins bons résultats dans la distinction entre les zones cancéreuses et non cancéreuses.

Conclusion et signification

La méthode COME, grâce à son cadre d’apprentissage contrastif, restaure efficacement les informations spatiales des données scRNA-seq et a validé sa précision et sa généralisabilité dans plusieurs systèmes biologiques. Cette méthode permet non seulement de reconstruire les modèles d’expression génique spatiale, mais aussi d’inférer la distribution des types cellulaires dans les tissus, offrant ainsi un outil important pour comprendre les interactions et les fonctions cellulaires.

Points forts de la recherche

  1. Cadre d’apprentissage contrastif
    La méthode COME introduit pour la première fois l’apprentissage contrastif dans l’apprentissage de correspondance entre les données scRNA-seq et ST, améliorant significativement la précision de la reconstruction spatiale.

  2. Intégration des informations sur les types cellulaires
    Grâce à l’apprentissage contrastif basé sur les types cellulaires, la méthode COME peut mieux capturer les dépendances spatiales entre les types cellulaires similaires, renforçant ainsi la signification biologique du modèle.

  3. Valeur applicative étendue
    Le succès de la méthode COME dans plusieurs systèmes biologiques démontre son potentiel étendu dans la recherche en transcriptomique spatiale, en particulier dans les domaines du microenvironnement tumoral et des neurosciences.

Autres informations utiles

Le code de la méthode COME est disponible en open source sur GitHub (https://github.com/cindyway/come), permettant aux chercheurs de le télécharger et de l’utiliser librement. En outre, l’équipe de recherche a fourni des procédures détaillées de prétraitement des données et d’évaluation, facilitant la reproduction et l’extension de cette étude par d’autres chercheurs.


Cet article propose de nouvelles idées et méthodes pour la reconstruction spatiale des données de transcriptomique monocellulaire, offrant une valeur scientifique importante et des perspectives applicatives prometteuses. Grâce à la méthode COME, les chercheurs peuvent mieux comprendre la distribution spatiale et les fonctions des cellules dans les tissus, fournissant ainsi de nouveaux outils pour la recherche et le traitement des maladies.