Stockage efficace et calcul de régression pour les études de séquençage du génome à l'échelle de la population

Avec la popularité croissante des biobanques de population à grande échelle, le potentiel des données de séquençage du génome entier (Whole Genome Sequencing, WGS) dans la recherche sur la santé humaine et les maladies a été considérablement renforcé. Cependant, les énormes besoins en calcul et en stockage des données WGS posent des défis majeurs aux institutions de recherche, en particulier celles sous-financées ou situées dans des pays en développement. Cette inégalité dans l’allocation des ressources limite l’équité dans la recherche de pointe en génétique. Pour résoudre ce problème, Manuel A. Rivas, Christopher Chang et leurs collègues ont développé de nouveaux algorithmes et méthodes de régression qui réduisent considérablement le temps de calcul et les besoins de stockage pour les études WGS, en particulier pour le traitement des variants rares.

Source de l’article

Cet article a été co-écrit par Manuel A. Rivas et Christopher Chang. Rivas est affilié au département de science des données biomédicales de l’Université de Stanford, tandis que Chang travaille chez Grail Inc. L’article a été publié le 11 février 2025 dans la revue Bioinformatics, sous le titre Efficient Storage and Regression Computation for Population-Scale Genome Sequencing Studies. L’article détaille comment ils ont considérablement amélioré l’efficacité des études WGS grâce à l’optimisation des algorithmes et des méthodes de stockage.

Processus de recherche

1. Objectif de l’étude

L’objectif principal de l’étude était de développer une méthode capable de réduire considérablement les besoins de stockage et le temps de calcul pour les données WGS, en particulier pour le traitement des variants rares. En intégrant ces méthodes dans PLINK 2.0, les chercheurs espéraient améliorer significativement l’efficacité de l’analyse des données génomiques à grande échelle sans sacrifier la précision de l’analyse.

2. Méthodes de recherche

a) Compression des données et optimisation du stockage

Les chercheurs ont développé un nouvel algorithme de compression de données capable de réduire significativement les besoins de stockage des données WGS. Cet algorithme exploite les modèles présents dans les variations génétiques, en particulier les caractéristiques des variants rares, pour représenter les données de manière compacte. Concrètement, PLINK 2.0 a introduit le format PGEN, qui utilise une représentation éparse pour les variants rares. Par exemple, dans un échantillon de 400 000 individus, un variant avec un seul allèle alternatif nécessiterait 100 000 octets dans le format binaire PLINK 1, contre seulement 4 octets d’en-tête et 5 octets de corps dans le format PGEN.

b) Optimisation des calculs de régression

Les chercheurs ont également développé de nouvelles méthodes de calcul de régression pour répondre à la complexité et à l’échelle des données WGS. Les méthodes de régression traditionnelles étant inefficaces pour traiter des données à grande échelle, ils ont utilisé des techniques de calcul éparses pour améliorer significativement la vitesse de traitement. Plus précisément, la commande --glm de PLINK 2.0 exécute des régressions linéaires et logistiques basées sur des génotypes épars. En optimisant le processus de calcul, les chercheurs ont pu réduire considérablement le temps de calcul pour les données à grande échelle.

3. Conception expérimentale

Pour valider l’efficacité de ces méthodes, les chercheurs ont utilisé les données de 19,4 millions de variants et les phénotypes d’indice de masse corporelle (IMC) de 125 077 individus du projet All of Us pour une analyse d’association pangénomique. Les résultats ont montré qu’avec la nouvelle méthode de PLINK 2.0, le temps de calcul est passé de 695,35 minutes (11,5 heures) sur une seule machine à 1,57 minute (en utilisant 30 Go de mémoire et 50 threads) ou 8,67 minutes (en utilisant 4 threads).

4. Analyse multiphénotype

Les chercheurs ont également étendu cette méthode pour prendre en charge l’analyse multiphénotype. En utilisant des données de 50 phénotypes pour une analyse d’association pangénomique, ils ont montré que l’analyse pouvait être réalisée en seulement 52 minutes et 38 secondes sur une seule machine virtuelle (30 Go de mémoire et 50 threads). En outre, ils ont introduit le drapeau --pheno-svd pour prétraiter les données phénotypiques par décomposition en valeurs singulières (SVD), améliorant encore l’efficacité des calculs.

Principaux résultats

1. Efficacité de la compression des données

Les chercheurs ont comparé les besoins de stockage pour les données de séquençage de l’exome du projet All of Us dans différents formats de fichiers. Les résultats ont montré que le format PGEN de PLINK 2.0 ne nécessitait que 39,0 Go d’espace de stockage, soit une compression de 98 % par rapport au format BED de PLINK 1 (2 To), de 90 % par rapport au format VCF (403 Go) et de 77 % par rapport au format BGEN (165 Go).

2. Amélioration de l’efficacité des calculs

Dans l’analyse d’association pangénomique, avec la nouvelle méthode de PLINK 2.0, le temps de calcul est passé de 695,35 minutes sur une seule machine à 1,57 minute (en utilisant 50 threads) ou 8,67 minutes (en utilisant 4 threads). En outre, pour l’analyse des phénotypes du diabète de type 2, le mode cc-residualize a réduit le temps de calcul à 7,68 minutes (avec 50 threads), contre 102,9 minutes pour le mode firth-fallback.

3. Efficacité de l’analyse multiphénotype

Dans l’analyse multiphénotype, après le prétraitement des données phénotypiques avec le drapeau --pheno-svd, le temps de calcul est passé de 50 minutes à 2 minutes, améliorant encore l’efficacité des calculs.

Conclusion

Cette étude a permis de réduire considérablement les besoins de stockage et le temps de calcul pour les études WGS grâce au développement de nouvelles méthodes de compression des données et de calcul de régression, en particulier pour le traitement des variants rares. Ces méthodes améliorent non seulement l’efficacité de l’analyse des données génomiques à grande échelle, mais offrent également des opportunités de recherche plus équitables aux institutions sous-financées et aux chercheurs des pays en développement.

Points forts de l’étude

  1. Compression significative des données : Le format PGEN réduit les besoins de stockage de 98 %, diminuant considérablement les coûts de stockage des données génomiques à grande échelle.
  2. Amélioration marquée de l’efficacité des calculs : En optimisant les méthodes de calcul de régression, le temps de calcul est passé de 11,5 heures à 1,57 minute, améliorant significativement l’efficacité de l’analyse.
  3. Prise en charge de l’analyse multiphénotype : Les chercheurs ont étendu cette méthode pour prendre en charge l’analyse multiphénotype, augmentant la flexibilité de l’analyse des données génomiques à grande échelle.
  4. Opportunités de recherche équitables : Ces méthodes offrent des opportunités de recherche plus équitables aux institutions sous-financées et aux chercheurs des pays en développement, favorisant la démocratisation de la recherche en génomique.

Importance et valeur

Cette étude fournit non seulement des outils efficaces pour l’analyse des données génomiques à grande échelle, mais contribue également à la démocratisation et à l’équité de la recherche en génomique. En réduisant considérablement les besoins de stockage et le temps de calcul, ces méthodes permettent aux chercheurs de traiter et d’analyser plus efficacement les données génomiques à grande échelle, accélérant ainsi le processus de découverte scientifique. De plus, ces méthodes offrent des opportunités de recherche plus équitables aux institutions sous-financées et aux chercheurs des pays en développement, favorisant la démocratisation mondiale de la recherche en génomique.