Analyse des données Hi-C basée sur la signification dans l'espace d'échelle

Dans le domaine de la génomique, comprendre l’organisation spatiale du génome est essentiel pour révéler les mécanismes de régulation génique. La technologie Hi-C, en tant que technique de capture de la conformation chromosomique à l’échelle du génome, permet de révéler la structure tridimensionnelle du génome, en particulier le rôle clé des boucles de chromatine (chromatin loops) dans la régulation génique. Cependant, les méthodes existantes d’analyse des données Hi-C ne parviennent généralement à identifier que les boucles de chromatine partagées, tout en ayant des difficultés à détecter les boucles spécifiques à un type cellulaire. Cela limite notre compréhension des mécanismes de régulation génique dans différents types de cellules. Pour résoudre ce problème, Rui Liu et ses collègues ont proposé un nouvel algorithme, SSSHiC (Significance in Scale Space for Hi-C Data), visant à identifier les boucles de chromatine spécifiques à un type cellulaire grâce à l’analyse en espace d’échelle, permettant ainsi une meilleure compréhension de la régulation génique spécifique aux cellules.

Source de l’article

Cet article a été co-écrit par Rui Liu, Zhengwu Zhang, Hyejung Won et J. S. Marron, tous issus du département de statistiques et de recherche opérationnelle ainsi que du département de génétique de l’University of North Carolina at Chapel Hill. L’article a été publié en 2025 dans la revue Bioinformatics, sous le titre « Significance in Scale Space for Hi-C Data ».

Processus de recherche

1. Prétraitement des données

L’étude utilise d’abord des données Hi-C provenant de neurones (neuron) et de cellules gliales (glia). Ces données sont divisées en intervalles de 10 kb et une matrice de contacts (contact matrix) est construite. Pour réduire le bruit et les biais, l’équipe de recherche a appliqué une transformation logarithmique aux données et a effectué un ajustement médian (median matching) pour éliminer les différences de profondeur entre les différents types de cellules. De plus, les entrées diagonales et certaines entrées non diagonales de la matrice ont été supprimées afin de réduire les interférences des interactions à courte distance sur l’analyse.

2. Analyse de significativité en espace d’échelle

Le cœur de l’algorithme SSSHiC repose sur l’analyse de courbure basée sur la significativité en espace d’échelle (Significance in Scale Space, SSS). Cette méthode utilise un lissage gaussien (Gaussian smoothing) pour réduire le bruit dans les données Hi-C et identifie les caractéristiques significatives grâce à l’analyse de courbure. Plus précisément, l’algorithme calcule les valeurs propres de la matrice hessienne pour chaque pixel et détermine quelles caractéristiques de courbure sont significatives par inférence statistique. Ce processus permet de distinguer efficacement les vraies boucles de chromatine du bruit aléatoire.

3. Identification des boucles de chromatine spécifiques à un type cellulaire

Après avoir identifié les pixels significatifs, l’équipe de recherche a regroupé ces pixels en boucles de chromatine. En comparant les résultats de regroupement des neurones et des cellules gliales, l’étude a défini des boucles de chromatine spécifiques à un type cellulaire. Plus précisément, si une boucle de chromatine présente des pixels significatifs à la fois dans les neurones et les cellules gliales, elle est définie comme une boucle partagée ; si elle n’est significative que dans un type de cellule, elle est définie comme spécifique à ce type de cellule.

4. Optimisation et validation des paramètres

Pour optimiser les paramètres de l’algorithme SSSHiC, l’équipe de recherche a exploré différentes largeurs de bande de lissage (bandwidth) et le nombre de lignes diagonales à supprimer ©. En comparant le nombre de boucles de chromatine détectées, l’ancrage des promoteurs de gènes et le chevauchement avec des algorithmes existants (comme Mustache) sous différentes combinaisons de paramètres, l’étude a finalement sélectionné la combinaison optimale (h=21.75, c=6).

Principaux résultats

1. Détection des boucles de chromatine

SSSHiC a détecté un grand nombre de boucles de chromatine dans les neurones et les cellules gliales, dont beaucoup étaient spécifiques à un type cellulaire. Par rapport à Mustache, les boucles de chromatine détectées par SSSHiC étaient plus fréquemment ancrées à des promoteurs de gènes, indiquant que ces boucles pourraient participer à la régulation génique.

2. Validation fonctionnelle des boucles de chromatine spécifiques à un type cellulaire

En analysant les gènes ancrés par les boucles de chromatine, l’équipe de recherche a découvert que les boucles spécifiques à un type cellulaire détectées par SSSHiC étaient fortement corrélées à des gènes marqueurs connus (marker genes). Par exemple, dans les neurones, SSSHiC a détecté des gènes liés aux fonctions neuronales (comme GABRA1, GRIN1, etc.), tandis que dans les cellules gliales, il a détecté des gènes liés aux fonctions gliales (comme AQP4, GFAP, etc.).

3. Analyse APA des boucles de chromatine

Pour valider davantage la fiabilité des boucles de chromatine détectées par SSSHiC, l’équipe de recherche a effectué une analyse des pics agrégés (Aggregate Peak Analysis, APA). Les résultats ont montré que les boucles de chromatine détectées par SSSHiC avaient des scores APA significativement plus élevés que ceux de Mustache, indiquant que ces boucles présentaient un enrichissement central plus fort.

Conclusion et signification

SSSHiC, en tant que nouvelle méthode d’analyse des données Hi-C, permet d’identifier efficacement les boucles de chromatine spécifiques à un type cellulaire grâce à l’analyse de significativité en espace d’échelle. Par rapport aux méthodes existantes, SSSHiC détecte non seulement plus de boucles de chromatine, mais ces boucles sont également plus fréquemment ancrées à des promoteurs de gènes, ce qui suggère leur rôle important dans la régulation génique. De plus, SSSHiC définit les boucles de chromatine comme des regroupements de pixels plutôt que comme un seul pixel, ce qui permet à l’algorithme de mieux gérer les variations biologiques et le bruit expérimental.

Points forts de l’étude

  1. Algorithme innovant : SSSHiC est la première méthode à appliquer l’analyse de significativité en espace d’échelle aux données Hi-C, offrant une nouvelle approche pour la détection des boucles de chromatine.
  2. Spécificité cellulaire : SSSHiC peut identifier efficacement les boucles de chromatine spécifiques à un type cellulaire, fournissant un nouvel outil pour comprendre les mécanismes de régulation génique dans différents types de cellules.
  3. Optimisation et validation des paramètres : L’équipe de recherche a optimisé et validé systématiquement les paramètres, garantissant la fiabilité et l’utilité de l’algorithme.
  4. Valeur applicative : SSSHiC ne se limite pas à la détection des boucles de chromatine, mais peut également être étendu à la détection d’autres unités structurelles du génome (comme les bandes, stripes), offrant un large éventail d’applications potentielles.

Autres informations utiles

L’équipe de recherche a également fourni le code et les données de SSSHiC, permettant à d’autres chercheurs de les utiliser et de les valider. Le code et les données sont disponibles sur GitHub et Code Ocean, favorisant ainsi la diffusion et l’application de cette méthode.

Grâce à cette étude, nous avons non seulement approfondi notre compréhension de la structure tridimensionnelle du génome, mais nous avons également fourni de nouveaux outils et méthodes pour étudier les mécanismes de régulation génique spécifiques à un type cellulaire.