Modélisation supervisée des facteurs latents isolant des modules transcriptomiques spécifiques au type de cellule qui sous-tendent la progression de la maladie d'Alzheimer

Vue d’ensemble

Un article intitulé “supervised latent factor modeling isolates cell-type-specific transcriptomic modules that underlie Alzheimer’s disease progression” a été publié dans Communications Biology. Cet article est le fruit de la collaboration de chercheurs de Liam Hodgson, Yue Li, Yasser Iturria-Medina, Jo Anne Stratton, Guy Wolf, Smita Krishnaswamy, David A. Bennett, et Danilo Bzdok de McGill University, Université de Montréal, Yale University, et Rush University Medical Center, entre autres. L’article explore, via une méthode de modélisation par facteurs latents supervisés, les modules transcriptomiques spécifiques aux types cellulaires associés à la progression de la maladie d’Alzheimer (AD).

Contexte de la recherche

La maladie d’Alzheimer à début tardif (AD) est une maladie neurodégénérative progressive dont les changements cérébraux commencent plusieurs années avant l’apparition des symptômes. Bien que la perte neuronale soit une caractéristique classique de l’AD, les études d’association pangénomique (GWAS) et les recherches récentes de séquençage de l’ARN unicellulaire (snRNA-seq) ont mis en évidence le rôle important des cellules gliales, en particulier des microglies, dans la physiopathologie de l’AD. Cette étude vise à explorer les modules prédictifs de l’AD distribués parmi les principaux types cellulaires du cerveau en intégrant l’ensemble du transcriptome et en utilisant des algorithmes d’apprentissage de modèles.

Objectif de la recherche

L’objectif de l’étude est de concevoir et de mettre en œuvre un cadre de modélisation par facteurs latents supervisés afin d’améliorer l’interprétabilité des programmes d’expression génique spécifique à l’AD dans le transcriptome snRNA-seq. Les chercheurs espèrent identifier, à l’aide de cette méthode, les modules de gènes moteurs de la maladie dans des types cellulaires spécifiques et en élucider la signification biologique dans la prédiction de l’AD.

Méthode de recherche

Cette étude a adopté une méthode de modélisation par facteurs latents supervisés, utilisant un modèle d’analyse discriminante par moindres carrés partiels (PLS-DA) pour analyser les données de séquençage de l’ARN unicellulaire du groupe de la cohorte Rosmap. Les étapes spécifiques sont les suivantes :

  1. Préparation et prétraitement des données : obtention des échantillons du projet Rosmap, impliquant 48 donneurs appariés selon l’âge et le sexe, soit environ 70 000 cellules.
  2. Entraînement des modèles : entraînement de modèles PLS-DA distincts pour chaque type cellulaire (y compris les neurones excitateurs, les neurones inhibiteurs, les oligodendrocytes, les cellules précurseurs des oligodendrocytes, les microglies et les astrocytes) pour différencier les cellules des patients AD et des non-AD à partir des données d’expression génique.
  3. Identification des modules : utilisation de la base de données de programmes génétiques classiques pour effectuer une analyse d’enrichissement des ensembles de gènes (GSEA) pour chaque module PLS-DA, afin d’identifier les processus biologiques et les voies moléculaires spécifiques associés à la prédiction de l’AD.
  4. Validation et évaluation : évaluation des performances du modèle et de l’exactitude de l’identification des modules en utilisant la méthode de validation croisée en cinq plis et ordonnancement pseudo-temporel pour inférer la progression de la maladie.

Résultats de la recherche

À travers les méthodes ci-dessus, l’équipe de recherche a obtenu les résultats principaux suivants :

  1. Modules de gènes spécifiques aux types cellulaires : dans les six types cellulaires (y compris les neurones excitateurs, les neurones inhibiteurs, etc.), ils ont découvert des modules spécifiques aux types cellulaires composés d’un petit nombre de gènes capables de distinguer efficacement les cellules saines des cellules AD. Par exemple, le principal module prédictif découvert dans les microglies est riche en programmes génétiques liés à l’activation des microglies, à la phagocytose et à la réponse aux plaques amyloïdes. Pour les astrocytes, le module prédictif principal est lié à la structure de la matrice extracellulaire, à l’assemblage des jonctions cellulaires, etc.
  2. Analyse des interactions : une analyse plus approfondie des interactions entre les modules de différents types cellulaires a révélé une activité programmée des gènes fortement coordonnée entre les neurones excitateurs et inhibiteurs, ainsi qu’une interaction significative avec les astrocytes. Cela suggère des liens fonctionnels et des mécanismes de réponse différenciés entre différents types cellulaires dans l’AD.
  3. Découvertes innovantes : l’utilisation de l’ordonnancement pseudo-temporel pour inférer les trajectoires de progression de la maladie chez les patients AD a montré une forte corrélation avec les indicateurs cliniques et pathologiques connus (comme le stade de Braak et le score CERAD). Les résultats ont montré que le pseudo-processus était fortement corrélé en Spearman avec ces marqueurs externes de la maladie.
  4. Localisation des gènes de risque GWAS : l’étude a approfondi l’exploration de 38 loci de risque d’AD connus issus des études GWAS et a révélé que certains de ces gènes de risque ont un impact significatif dans certains modules cellulaires spécifiques. Par exemple, le gène APOE apparaît principalement dans les modules d’astrocytes, de microglies et de cellules précurseurs des oligodendrocytes, tandis que le gène PICALM se manifeste dans les modules de tous les types cellulaires.

Conclusion et signification

La conclusion principale de cette étude est que l’adoption de la modélisation par facteurs latents supervisés permet d’identifier les modules prédictifs de l’AD dans des types cellulaires spécifiques et de révéler leur rôle crucial dans la progression de la maladie. Cette méthode souligne la valeur de la considération simultanée de toutes les expressions géniques dans les données de séquençage de l’ARN unicellulaire pour isoler divers modules potentiels d’expression génique, offrant ainsi une nouvelle perspective pour comprendre les mécanismes pathologiques de l’AD.

En outre, les résultats mettent en évidence l’importance des microglies dans la pathogenèse de l’AD et suggèrent des moyens potentiels de coordination fonctionnelle entre les cellules, offrant de nouvelles directions pour les recherches futures. Par exemple, l’activation de TLR2, TLR1 et TLR5 dans les microglies via la voie de signalisation MAPK/ERK aide au développement de stratégies thérapeutiques potentielles contre l’AD.

Enfin, en associant les gènes de risque de l’AD connus à des types cellulaires spécifiques et des modules de programmes génétiques, l’étude révèle les rôles uniques de ces gènes de risque dans différents types cellulaires, soutenant davantage la valeur de l’utilisation des données transcriptomiques unicellulaires dans la recherche sur l’AD.

Cette étude, grâce à un cadre d’analyse multi-niveaux, étend non seulement la compréhension des mécanismes de l’AD, mais démontre également le potentiel d’application du machine learning en génomique unicellulaire. Les résultats de cette recherche espèrent fournir une base théorique pour le développement de nouveaux moyens de diagnostic et de traitement.