Alignement au niveau des gènes des trajectoires unicellulaires
Alignement des Trajectoires Unicellulaires au Niveau des Gènes : Une Nouvelle Méthode Basée sur la Programmation Dynamique
La technologie de séquençage ARN à cellule unique (Single-cell RNA sequencing, scRNA-seq) a considérablement stimulé les avancées de la recherche biologique, permettant aux scientifiques d’observer les dynamiques au niveau des cellules uniques dans le temps ou l’espace. Cependant, comparer ces changements dynamiques entre des échantillons ou des conditions (par exemple, contrôles versus traitements médicamenteux, expériences in vitro et in vivo, individus sains et malades) reste un défi majeur. Cette étude propose un nouvel outil appelé genes2genes pour résoudre des problématiques clés dans l’alignement des trajectoires unicellulaires, en particulier pour réaliser des correspondances dynamiques précises au niveau des gènes.
Cet article, issu d’une collaboration entre des chercheurs du Wellcome Sanger Institute, de l’Université de Cambridge, de Columbia University, et d’autres institutions, est dirigé par la Professeure Sarah A. Teichmann. Publié dans la revue Nature Methods le 19 septembre 2024, l’article présente comment combiner la théorie de l’information bayésienne et un cadre de programmation dynamique pour optimiser la correspondance et la distinction entre trajectoires unicellulaires, remédiant aux limitations des approches actuelles.
Contexte de l’étude et défis techniques
L’alignement des trajectoires unicellulaires consiste à analyser les similitudes ou différences dans les dynamiques d’expression des gènes afin d’évaluer les changements d’état cellulaire dans différentes conditions. Parmi les méthodes disponibles, l’inférence de trajectoire pseudotemporelle (pseudotime trajectory inference) est utilisée pour ordonner les cellules et capturer les processus biologiques continus. Cependant, les approches analytiques reposant sur l’algorithme Dynamic Time Warping (DTW) présentent plusieurs limites :
1. Hypothèse restrictive : chaque point temporel de référence doit correspondre à au moins un point temporel de la trajectoire de requête.
2. Incapacité à détecter les désalignements : ces algorithmes ne capturent pas les états insérés ou supprimés.
3. Mesures simplistes : comme la distance euclidienne, qui ne reflète pas les variations complexes des distributions d’expression génique.
Pour surmonter ces défis, cette étude introduit un nouveau cadre d’analyse, appelé genes2genes (g2g), qui associe programmation dynamique et théorie de l’information pour réaliser des alignements précis des trajectoires pseudotemporelles au niveau des gènes.
Conception de l’étude et méthodologie
1. Aperçu méthodologique
La méthode genes2genes s’appuie sur une version améliorée de l’algorithme de programmation dynamique Gotoh et intègre un modèle à cinq états, capable de traiter :
- Correspondance 1:1 (match, m),
- Dilatation (one-to-many expansion warp, v),
- Compression (many-to-one compression warp, w),
- Insertion (i),
- Suppression (d).
Cette extension permet de prendre simultanément en compte les ajustements temporels des états cellulaires et les désalignements entre les trajectoires.
Les chercheurs ont également introduit la théorie bayésienne avec un cadre de Minimum Message Length (MML) pour évaluer précisément les différences entre distributions d’expression génique. Contrairement aux approches traditionnelles (euclidiennes), cela offre une quantification robuste des écarts en termes de moyennes et de variances.
2. Prétraitement et interpolation des données
Afin d’assurer une trajectoire lisse et des points temporels uniformément répartis, une interpolation basée sur des distributions probabilistes a été introduite :
- Normalisation des trajectoires pseudotemporelles vers un intervalle [0,1].
- Définition de m points d’interpolation équidistants.
- Estimation des distributions d’expression génique (moyennes et écarts-types) à chaque point d’interpolation à l’aide d’un noyau gaussien.
Ces méthodes améliorent la fiabilité des alignements dans les zones de forte variation.
3. Algorithme de programmation dynamique
Pour un alignement précis, un modèle basé sur une quantification de l’information encode :
- Un coût de correspondance entre deux points temporels à partir des distributions d’expression génique.
- Un coût de transition d’état pour modéliser les changements entre les cinq états.
La programmation dynamique optimise la matrice de scores à travers des relations récursives et rétro-reconstruit les trajectoires pour obtenir l’alignement optimal.
Résultats de l’étude
1. Validation sur des données simulées
Les chercheurs ont testé g2g sur des trajectoires simulées avec sept configurations d’alignement (correspondance, divergence précoce, médiane et tardive, convergence précoce, médiane et tardive). Sur 3 500 paires de trajectoires, g2g a montré une précision de plus de 99 %, surpassant largement les méthodes existantes comme cellalign ou tragedy. Les simulations illustrent la capacité de g2g à capturer avec exactitude la longueur et la localisation des régions de désalignement, autant pour les divergences que pour les convergences.
2. Applications sur données biologiques
a. Analyse dynamique des inflammations
Dans des cellules dendritiques murines stimulées par Pam ou LPS (lipopolysaccharide), g2g a détecté des désalignements précoces (expression précoce de certains gènes antiviraux comme IRF7 et STAT2) ainsi que des désalignements tardifs dans les dynamiques de pics d’expression.
b. Comparaison dans la fibrose pulmonaire
Les trajectoires de différenciation pulmonaire ont révélé des modèles pathologiques dans la fibrose pulmonaire idiopathique (Idiopathic Pulmonary Fibrosis, IPF), notamment une implication précoce des gènes de la transition épithélio-mésenchymateuse (NNMT, CAMK1D).
c. Optimisation du développement des lymphocytes T
En comparant la différenciation in vitro et in vivo des lymphocytes T à partir de cellules IPS (pluripotentes induites), des divergences dans la signalisation TNF ont été identifiées. En ajustant l’ajout de TNF dans le système in vitro (semaine finale de maturation), les chercheurs ont amélioré les caractéristiques des lymphocytes T in vitro pour les rapprocher des cellules in vivo.
3. Conclusion et implications
Cette étude présente une méthode innovante pour l’alignement des trajectoires unicellulaires, démontrant son utilité dans la découverte des différences moléculaires dynamiques et l’optimisation des protocoles de culture cellulaire. G2g apporte des perspectives prometteuses pour modéliser les maladies, affiner les conditions in vitro et explorer de nouvelles cibles thérapeutiques.
4. Points forts
- Conception algorithmique unique : intégration de la programmation dynamique à la théorie de l’information.
- Résolution au niveau des gènes : identification précise des alignements et divergences moléculaires.
- Polyvalence : validé sur des données simulées et biologiques.
- Accessibilité : disponible en tant qu’outil open-source.
L’introduction de g2g ouvre de nouvelles voies d’analyse pour comparer des trajectoires unicellulaires et guider des avancées dans la recherche biomédicale.