Alignement de trajectoire de la dynamique d'expression génique
Le séquençage de l’ARN monocellulaire (single-cell RNA sequencing, scRNA-seq) a fourni une résolution sans précédent pour étudier la dynamique de l’expression génique au cours du développement et de la différenciation cellulaire. Cependant, en raison de la complexité des processus biologiques, les trajectoires de développement cellulaire dans différentes conditions sont souvent asymétriques, ce qui pose des défis pour l’intégration et la comparaison des données. Les méthodes existantes reposent généralement sur l’intégration d’échantillons provenant de différentes conditions avant d’effectuer une analyse par clustering ou d’inférer une trajectoire partagée. Cependant, ces méthodes sont souvent inefficaces pour traiter des trajectoires asymétriques et peuvent masquer des gènes différentiellement exprimés (differentially expressed genes, DEGs) clés.
Pour résoudre ce problème, les chercheurs ont développé une nouvelle méthode : Trajectory Alignment of Gene Expression Dynamics (Tragedy). La méthode Tragedy permet d’aligner directement les trajectoires de développement cellulaire indépendantes sans intégration des ensembles de données, évitant ainsi les erreurs potentielles introduites lors de l’intégration. Cette méthode offre un outil plus précis pour étudier les processus de développement cellulaire dans différentes conditions.
Source de l’article
Cet article a été rédigé par Ross F. Laidlaw, Emma M. Briggs, Keith R. Matthews, Amir Madany Mamlouk, Richard McCulloch et Thomas D. Otto. Les auteurs sont affiliés à des institutions telles que l’University of Glasgow, l’University of Edinburgh, l’Newcastle University, l’University of Lübeck et l’Université de Montpellier. L’article a été publié le 11 mars 2025 dans la revue Bioinformatics, sous le titre “Trajectory Alignment of Gene Expression Dynamics (Tragedy)”.
Processus et résultats de la recherche
1. Préparation des données et génération de points d’interpolation
L’entrée de la méthode Tragedy consiste en deux ensembles de données scRNA-seq pour lesquels le pseudotemps (pseudotime) a déjà été calculé. Pour réduire la complexité computationnelle et le bruit, les chercheurs ont effectué une interpolation sur les ensembles de données, générant un nombre défini par l’utilisateur de points d’interpolation. Ces points représentent les modèles d’expression génique des cellules environnantes dans une fenêtre temporelle spécifique. La taille de la fenêtre de pseudotemps des points d’interpolation est ajustée en fonction de la densité cellulaire : les régions à haute densité cellulaire ont des fenêtres plus petites, tandis que les régions à faible densité cellulaire ont des fenêtres plus grandes.
2. Calcul des différences transcriptionnelles
Ensuite, Tragedy calcule les différences transcriptionnelles entre tous les points d’interpolation des deux trajectoires et stocke ces différences dans une matrice. Le calcul des différences peut utiliser la distance euclidienne, le coefficient de corrélation de Pearson ou le coefficient de corrélation de Spearman. Par défaut, Tragedy utilise le coefficient de corrélation de Spearman, ajusté de sorte que 0 représente une corrélation positive parfaite.
3. Détermination du chemin d’alignement optimal
Tragedy utilise l’algorithme de Dynamic Time Warping (DTW) pour déterminer le chemin d’alignement optimal des deux trajectoires. Les chercheurs ont d’abord identifié les points de départ et d’arrivée du chemin d’alignement, puis ont optimisé ces points par bootstrap. Finalement, Tragedy a sélectionné un chemin d’alignement avec un score moyen minimal.
4. Alignement du pseudotemps
Une fois le chemin d’alignement déterminé, Tragedy ajuste le pseudotemps des points d’interpolation pour que les points correspondants aient des valeurs de pseudotemps similaires. Pour les cas de multi-alignements, Tragedy traite les valeurs de pseudotemps par mise à l’échelle. Enfin, Tragedy mappe le pseudotemps des points d’interpolation sur les cellules individuelles, achevant ainsi le processus d’alignement.
5. Analyse de l’expression différentielle
Tragedy utilise une méthode de clustering souple par fenêtres glissantes pour comparer les gènes différentiellement exprimés entre deux conditions. L’utilisateur définit le nombre de fenêtres et le degré de chevauchement, et Tragedy attribue les cellules à différentes fenêtres en fonction de ces paramètres, puis effectue des comparaisons statistiques dans chaque fenêtre. À l’aide du test de Mann-Whitney U et du calcul du log2FC, Tragedy identifie les gènes différentiellement exprimés.
Principaux résultats
1. Alignement des ensembles de données simulés
Les chercheurs ont utilisé dyngen pour générer trois ensembles de données simulés, comprenant deux contrôles positifs et un contrôle négatif. Tragedy a capturé avec précision l’alignement des trajectoires dans tous les ensembles de données simulés, tandis que les méthodes existantes telles que CellAlign et genes2genes (g2g) ont mal performé avec des trajectoires asymétriques. En particulier, dans l’ensemble de données de contrôle négatif, Tragedy a correctement identifié qu’il n’y avait pas de processus biologique commun entre les deux ensembles de données.
2. Application à des ensembles de données réels
Les chercheurs ont appliqué Tragedy à des ensembles de données réels de Trypanosoma brucei et de développement des cellules T. Dans l’ensemble de données de Trypanosoma brucei, Tragedy a capturé avec précision la relation d’alignement entre les cellules de type sauvage (WT) et celles avec un knock-out (KO) de zc3h20, et a identifié plus de gènes différentiellement exprimés. Par rapport à Seurat et tradeSeq, Tragedy a offert une meilleure performance dans l’identification des gènes et processus biologiques pertinents.
Dans l’ensemble de données de développement des cellules T, Tragedy a réussi à comparer les trajectoires de développement des cellules de type sauvage et celles avec un knock-out de bcl11b, et a identifié plus de gènes différentiellement exprimés. Le temps d’exécution de Tragedy était également significativement plus court que celui de tradeSeq, tout en fournissant des insights biologiques plus riches.
Conclusion et signification
La méthode Tragedy offre un nouvel outil pour l’alignement des trajectoires et l’analyse de l’expression différentielle en transcriptomique monocellulaire. Par rapport aux méthodes existantes, Tragedy permet d’aligner directement les trajectoires de développement cellulaire indépendantes sans intégration des ensembles de données, évitant ainsi les erreurs potentielles introduites lors de l’intégration. Grâce à cette méthode, les chercheurs peuvent identifier avec plus de précision les gènes différentiellement exprimés et les processus biologiques dans différentes conditions, fournissant un outil plus précis pour comprendre le développement et la différenciation cellulaire.
Points forts de la recherche
- Méthode d’alignement innovante : Tragedy utilise des points d’interpolation et l’algorithme DTW pour réaliser un alignement précis des trajectoires indépendantes, évitant les erreurs d’intégration des ensembles de données.
- Analyse efficace de l’expression différentielle : Tragedy utilise une méthode de clustering souple par fenêtres glissantes pour identifier plus de gènes différentiellement exprimés dans différentes conditions, offrant des insights biologiques plus riches.
- Large application : Tragedy est applicable non seulement aux ensembles de données simulés, mais aussi à des ensembles de données réels complexes, comme ceux de Trypanosoma brucei et du développement des cellules T.
Perspectives futures
Avec le développement continu des technologies de séquençage monocellulaire, la méthode Tragedy devrait trouver des applications dans davantage de recherches biologiques. En particulier, en combinaison avec les technologies perturb-seq et lineage tracing, Tragedy permettra d’analyser avec plus de précision la dynamique de l’expression génique au cours du développement cellulaire, offrant de nouvelles perspectives pour révéler les mécanismes de décision du destin cellulaire.