Un assemblage diploïde complet du génome de bout en bout pour les Han chinois

T2T-YAO : Assemblage d’un génome de référence diploïde complet pour l’ethnie Han

Contexte scientifique

Depuis le lancement du Projet Génome Humain (Human Genome Project, HGP) il y a trente ans, le domaine de la recherche biomédicale s’est fixé comme objectif à long terme de construire un génome de référence humain complet et précis. Cependant, en raison des limitations des technologies de séquençage, il a longtemps été difficile d’atteindre l’exhaustivité et la précision requises pour cet objectif. Ces dernières années, grâce aux percées dans les technologies de séquençage, le projet T2T (Telomere-to-Telomere, télomère à télomère) a publié le premier génome humain haploïde complet, le T2T-CHM13v1.1. Cette réalisation a comblé 8% des régions hautement répétitives précédemment inconnues, atteignant une qualité de génome de Q73.94, soit une erreur toutes les 24,8 mégabases.

Cependant, aussi impressionnante que soit cette réalisation, le génome T2T-CHM13 n’est pas représentatif d’un véritable individu humain, mais plutôt un génome haploïde provenant d’une lignée cellulaire de môle hydatiforme complète (CHM) dépourvue de chromosome Y. Sa lignée cellulaire est d’origine nord-européenne, avec le chromosome Y complété par HG002 d’ascendance juive d’Europe de l’Est, et ne représente toujours pas tous les individus du monde. Il est important de noter que, bien que la référence pan-génomique humaine (HPRC) intègre des génomes brouillons de 47 individus du monde entier, elle reste insuffisante pour représenter de manière exhaustive toutes les populations.

Dans ce contexte, l’ethnie Han, en tant que plus grand groupe ethnique au monde, est sous-représentée dans les génomes de référence humains actuels (comme GRCh38 et HPRC), en particulier dans les régions d’origine manquant d’échantillons. Par conséquent, la construction d’un génome de référence T2T diploïde de haute qualité pour l’ethnie Han est cruciale pour faire progresser la recherche biologique approfondie et les applications médicales ciblant différents groupes ethniques.

Source de l’étude

Cet article de recherche original provient d’auteurs affiliés à plusieurs institutions de recherche, dont l’Hôpital du Peuple de l’Université de Pékin, l’Institut de Génomique de Pékin, l’Académie Chinoise des Sciences, entre autres. L’article a été publié en ligne le 16 août 2023 dans la revue Genomics Proteomics & Bioinformatics.

Processus de recherche

Sélection de l’échantillon de recherche

Pour réaliser la construction du génome de référence diploïde complet de l’ethnie Han, l’équipe de recherche a recruté un homme Han en bonne santé originaire d’un ancien village de la province du Shanxi, où des Han résident depuis plusieurs générations depuis la dynastie Ming, reflétant des caractéristiques génétiques relativement pures de l’ethnie Han.

Séquençage et collecte de données

L’article décrit en détail la collecte du génome à partir d’échantillons de cellules mononucléées du sang périphérique (PBMC) d’une triade parentale (enfant et parents). Tout d’abord, une analyse du caryotype chromosomique a été effectuée pour exclure toute maladie chromosomique. Ensuite, diverses technologies ont été utilisées pour assurer la profondeur et la couverture du séquençage, notamment le séquençage haute fidélité (HiFi) PacBio, le séquençage Oxford Nanopore (ONT), le séquençage de capture de conformation chromosomique (Hi-C) du génome ARIMA Illumina, et le mappage optique Bionano.

Assemblage et correction du génome

L’assemblage de la triade a été réalisé en utilisant les marqueurs spécifiques paternels et maternels des données de lecture ONT du fils, et en construisant un graphe de de Bruijn basé sur les lectures HiFi pour une intégration progressive. Ensuite, les lectures ONT ultra-longues et les k-mers à basse fréquence ont été utilisés pour combler les lacunes restantes dans l’assemblage, aboutissant finalement à l’assemblage T2T. Après vérification avec plusieurs ensembles de données, une stratégie stricte a été utilisée pour corriger les erreurs de variants nucléotidiques simples (SNV) et de variants structurels (SV), garantissant la précision de la référence génomique finale.

Validation et évaluation des données

Des outils tels que Merqury ont été utilisés pour évaluer l’exhaustivité et la précision du génome T2T-YAO, atteignant une valeur de qualité (Q value, QV) de Q74.69, supérieure au Q73.94 de T2T-CHM13. Cela marque T2T-YAO comme le génome de référence humain diploïde de la plus haute qualité au monde à ce jour.

Résultats de la recherche

Distribution des marqueurs génétiques Han

Basé sur les données SNP du projet 1000 Génomes, le génome T2T-YAO a montré des marqueurs génétiques distinctement est-asiatiques, avec un mélange de marqueurs sud-asiatiques, européens et américains en petites quantités. Cela démontre les différences caractéristiques du génome Han parmi différentes populations.

Gènes et séquences uniques

En comparant avec les génomes humains existants, on a découvert qu’environ 10% de séquences uniques existent dans le génome T2T-YAO, principalement distribuées dans les régions hétérochromatiques telles que les centromères, augmentant la diversité génétique spécifique au génome Han.

Variations structurelles

L’étude a également révélé plusieurs variations structurelles à grande échelle, comme une inversion de 4MB découverte sur le bras court du chromosome 8, une variation également rapportée dans des études génétiques précédentes, indiquant la diversité structurelle entre différentes populations.

Architecture du chromosome Y

Le chromosome Y dans T2T-YAO (YAO-Y) a une longueur totale de 51MB, 10 MB de moins que le chromosome Y de CHM13, principalement dans la région Yq12. Ces différences reflètent le polymorphisme de longueur du chromosome Y dans différentes populations.

Signification de la recherche

Cette étude a réussi pour la première fois à construire un génome de référence diploïde complet pour l’ethnie Han, ce qui signifie que dans les futures recherches biomédicales, en particulier dans les études de médecine de précision ciblant la population Han, il sera possible de localiser et d’analyser plus précisément les variations génétiques. De plus, la construction du génome T2T-YAO fournit des scénarios d’application précieux et des bases pratiques pour les futures recherches en génomique et le développement de nouveaux médicaments.

Conclusion

T2T-YAO représente une avancée importante dans l’assemblage génomique actuel, étant le premier génome humain diploïde véritablement complet et précis, qui jouera un rôle énorme dans les futures recherches biomédicales. Cette étude démontre non seulement une percée technologique, mais plus important encore, fournit une référence génomique détaillée et authentique pour l’ethnie Han, ce vaste groupe de population, ayant une valeur académique importante et des perspectives d’application.