Empreintes Multiscalaires Révélant l'Organisation des Éléments Cis-Régulateurs

Les empreintes multi-échelles révèlent le rôle des éléments cis-régulateurs dans la différenciation cellulaire et le vieillissement

Contexte

La régulation de l’expression génique est un mécanisme clé dans le destin cellulaire et la survenue de maladies, et les éléments cis-régulateurs (CREs) jouent un rôle essentiel dans ce processus. Les CREs régulent dynamiquement l’expression des gènes en se liant à diverses protéines effectrices, telles que les facteurs de transcription et les nucléosomes. Cependant, les méthodes de recherche actuelles présentent des limites dans la mesure des dynamiques de liaison de ces protéines effectrices à l’échelle du génome, en particulier au niveau de la cellule unique. Cela rend difficile une compréhension complète de la manière dont la structure des CREs est liée à leur fonction, notamment lors de la différenciation cellulaire et du vieillissement.

Pour résoudre ce problème, une équipe de recherche du Broad Institute of MIT and Harvard, de l’Université Harvard et d’autres institutions a développé une méthode computationnelle appelée PRINT, capable d’identifier les empreintes multi-échelles des interactions ADN-protéines à partir de données d’accessibilité chromatinienne. Sur cette base, ils ont ensuite développé le cadre Seq2Print, utilisant l’apprentissage profond pour inférer avec précision la liaison des facteurs de transcription et des nucléosomes, et pour décrypter la logique de régulation des CREs. Cette étude a été publiée en 2024 dans la revue Nature, sous le titre Multiscale footprints reveal the organization of cis-regulatory elements.

L’équipe de recherche et les informations de publication

Cette étude a été réalisée par plusieurs chercheurs, dont Yan Hu, Max A. Horlbeck, Ruochi Zhang, principalement issus du Broad Institute of MIT and Harvard et de l’Université Harvard. En combinant des méthodes de biologie computationnelle et expérimentale, l’équipe a réussi à révéler les changements dynamiques des CREs lors de la différenciation cellulaire et du vieillissement. L’article a été accepté le 22 novembre 2024 et publié en ligne la même année.

Processus de recherche et résultats

1. Développement de la méthode de détection des empreintes multi-échelles (PRINT)

L’équipe de recherche a d’abord développé la méthode PRINT pour détecter les empreintes multi-échelles des interactions ADN-protéines à partir de données d’accessibilité chromatinienne. L’innovation clé de PRINT réside dans sa capacité à surmonter les biais de séquence de la transposase Tn5, qui peuvent perturber considérablement la précision de la détection des empreintes. Pour ce faire, l’équipe a entraîné un réseau de neurones convolutifs (CNN) pour prédire les préférences d’insertion de Tn5 sur de l’ADN déprotéinisé. Ce modèle a montré des performances exceptionnelles sur des données de chromosomes artificiels bactériens (BAC), surpassant significativement les modèles traditionnels de k-mer et de matrice de poids positionnels (PWM).

La méthode PRINT quantifie statistiquement la déplétion significative des insertions de Tn5 pour générer un score d’empreinte. L’équipe a validé l’efficacité de PRINT dans des expériences in vitro, montrant que PRINT pouvait détecter avec précision les sites de liaison des facteurs de transcription (comme Myc/Max et CEBPA), alors que les méthodes traditionnelles d’empreintes ATAC-seq ne pouvaient pas distinguer les sites de liaison du bruit de fond.

2. Développement du cadre d’apprentissage profond Seq2Print

Sur la base des empreintes multi-échelles générées par PRINT, l’équipe a développé le cadre Seq2Print. Seq2Print utilise un modèle d’apprentissage profond pour prédire les empreintes multi-échelles à partir de séquences d’ADN et inférer la liaison des facteurs de transcription et des nucléosomes. Ce modèle peut prédire les empreintes des nucléosomes et des facteurs de transcription en utilisant uniquement des séquences d’ADN locales comme entrée, et a montré une précision de prédiction élevée (corrélation globale de 0,75) sur les données ATAC-seq de cellules HepG2.

Une fonction importante de Seq2Print est sa capacité à analyser les caractéristiques de séquence des CREs et à identifier les sites de liaison clés des facteurs de transcription. Par exemple, dans une région CRE spécifique, Seq2Print a identifié avec succès les sites de liaison des facteurs de transcription NFE2L2 et NFYB, révélant leur rôle potentiel dans la régulation de la position des nucléosomes.

3. Application aux données de cellules uniques et analyse des trajectoires de différenciation cellulaire

L’équipe a appliqué Seq2Print à des données de cellules uniques ATAC-seq de moelle osseuse humaine, analysant les changements dynamiques des CREs lors de l’hématopoïèse. Ils ont découvert que les CREs subissent une établissement et une expansion séquentielle lors de la différenciation, en particulier lors de la différenciation érythroïde, où les facteurs de transcription GATA et TAL se lient tôt, tandis que KLF1 et NFE2 se lient plus tard. Ce modèle de liaison séquentielle est étroitement lié à l’expansion progressive des CREs, révélant le processus dynamique de l’établissement des enhancers.

4. Changements des CREs lors du vieillissement

L’équipe a également utilisé Seq2Print pour analyser les changements des CREs dans les cellules souches hématopoïétiques (HSCs) de souris lors du vieillissement. Ils ont observé une réduction généralisée des empreintes de nucléosomes et une augmentation significative des motifs composites ETS lors du vieillissement. Ces changements pourraient être liés à la dysrégulation de l’expression génique lors du vieillissement, en particulier pour les gènes associés au déclin fonctionnel des HSCs.

Conclusion et signification

Cette étude, en développant les méthodes PRINT et Seq2Print, a réussi à révéler les changements dynamiques des CREs lors de la différenciation cellulaire et du vieillissement. La méthode PRINT permet de détecter des empreintes multi-échelles à partir de données d’accessibilité chromatinienne, tandis que Seq2Print utilise un modèle d’apprentissage profond pour analyser les caractéristiques de séquence des CREs et leur logique de régulation. Ces méthodes améliorent non seulement la précision de la prédiction de la liaison des facteurs de transcription, mais offrent également de nouvelles perspectives pour comprendre le rôle des CREs dans la régulation génique.

Points forts de l’étude

  1. Détection des empreintes multi-échelles : La méthode PRINT peut détecter des interactions ADN-protéines de différentes tailles, améliorant significativement la sensibilité et la spécificité de la détection des empreintes.
  2. Cadre d’apprentissage profond : Seq2Print utilise un modèle d’apprentissage profond pour analyser les caractéristiques de séquence des CREs, prédire la liaison des facteurs de transcription et des nucléosomes, et identifier de nouveaux motifs de régulation.
  3. Résolution à l’échelle de la cellule unique : L’équipe a appliqué Seq2Print à des données de cellules uniques ATAC-seq, révélant les changements dynamiques des CREs lors de la différenciation cellulaire et du vieillissement.
  4. Découvertes liées au vieillissement : L’étude a révélé que le vieillissement s’accompagne d’une réduction généralisée des empreintes de nucléosomes et d’une augmentation des motifs composites ETS, fournissant de nouveaux indices sur la dysrégulation de l’expression génique lors du vieillissement.

Autres informations utiles

L’équipe de recherche a également fourni des modèles pré-entraînés de PRINT et Seq2Print, ainsi que des références de biais de Tn5 à l’échelle du génome, pour une utilisation par d’autres chercheurs. Ces ressources contribueront à faire progresser l’analyse et l’application des données d’accessibilité chromatinienne.

En combinant des méthodes de biologie computationnelle et expérimentale, cette étude a réussi à révéler la dynamique complexe des CREs dans la régulation génique, offrant de nouveaux outils et perspectives pour comprendre le destin cellulaire et la survenue des maladies.