Banc d'essai des algorithmes pour le scoring de l'ensemble de gènes des données ATAC-Seq à cellule unique

Test de référence des outils de notation des ensembles de gènes pour les données scATAC-seq

Auteurs : Xi Wang, Qiwei Lian, Haoyu Dong, Shuo Xu, Yaru Su, Xiaohui Wu
Affiliations : Pasteurien College (École de médecine de Suzhou, Université de Suzhou), Département d’automatisation de l’Université de Xiamen, École de mathématiques et d’informatique de l’Université de Fuzhou
Auteur correspondant : xhwu@suda.edu.cn
Journal : « Genomics, Proteomics & Bioinformatics »
Date de publication : 9 février 2024 (publié en ligne)

Introduction

Le séquençage de la chromatine accessible par transposase (ATAC-seq) est une technique épigénomique puissante et couramment utilisée qui analyse l’accessibilité de la chromatine à l’échelle du génome par séquençage. Récemment, la technique ATAC-seq à cellule unique (scATAC-seq) a permis d’étudier l’accessibilité de la chromatine dans des cellules individuelles, révélant de nouveaux sous-groupes cellulaires de mécanismes de régulation de la chromatine. Cependant, le développement de modèles computationnels pour scATAC-seq est nettement en retard par rapport au séquençage d’ARN à cellule unique (scRNA-seq). La notation des ensembles de gènes (GSS) est largement utilisée dans les données RNA-seq, mais les outils GSS pour scATAC-seq sont rares. Pour combler cette lacune, cette étude a réalisé un test de référence complet de dix outils GSS, incluant des outils pour scRNA-seq et RNA-seq en vrac, et a comparé leurs performances sur les données scATAC-seq.

Méthodes

Cette étude a systématiquement évalué dix outils GSS, dont quatre outils RNA-seq en vrac (PLAGE, Z-score, ssGSEA, GSVA), cinq outils scRNA-seq (AUCell, pagoda2, VISION, VAM, unipath), et un outil spécifique à scATAC-seq (unipathatac). L’évaluation a été réalisée en utilisant plusieurs ensembles de données scATAC-seq, comprenant huit ensembles de données scATAC-seq indépendants et trois ensembles de données scATAC-seq et scRNA-seq appariés. Le processus de recherche comprenait le prétraitement des données, la conversion de l’activité génique, l’application de GSS et l’évaluation des résultats. Pour résoudre le problème de la rareté des données, l’étude a également évalué l’impact de différentes méthodes d’imputation sur les résultats GSS. Enfin, un guide pratique a été fourni pour choisir les méthodes de prétraitement et les outils GSS appropriés dans différents scénarios d’application.

Résultats principaux

  • Évaluation de l’applicabilité des outils GSS : L’applicabilité des outils GSS pour RNA-seq à scATAC-seq a été testée, révélant des performances comparables à celles sur les données scRNA-seq. En particulier, pagoda2 et PLAGE ont obtenu les meilleures performances sur plusieurs ensembles de données et scénarios.
  • Impact de la conversion de l’activité génique et de l’imputation : Les différents outils de conversion de l’activité génique (GA) ont eu un impact limité sur GSS, mais l’imputation a significativement amélioré les performances de presque tous les outils GSS. L’imputation basée sur scale et drimpute a donné les meilleurs résultats.
  • Performances des outils GSS : pagoda2 et PLAGE ont obtenu les meilleures performances sur les données brutes, tandis que VISION a montré les meilleures performances globales après imputation. Les performances spécifiques des outils GSS dépendent des données et des étapes de prétraitement.
  • Influence des ensembles de gènes : L’impact des différents ensembles de gènes était relativement faible, mais l’utilisation de plusieurs ensembles de gènes pour une analyse comparative peut fournir une interprétation biologique plus complète.
  • Vitesse de calcul : VISION et Z-score étaient les plus rapides en termes de calcul, recommandés en priorité pour l’analyse de petits ensembles de données.

Conclusion et valeur d’application

Cette étude, à travers un test de référence systématique, a validé l’applicabilité des outils GSS pour RNA-seq aux données scATAC-seq, ouvrant de nouvelles méthodes pour les recherches futures. Les résultats montrent que pagoda2 et PLAGE excellent et sont recommandés pour les données brutes non imputées, tandis que VISION est le meilleur choix après imputation. Les méthodes de conversion de l’activité génique et d’imputation peuvent significativement influencer les résultats GSS, avec scale ou drimpute améliorant la précision. Les résultats expérimentaux fournissent un guide pratique pour le choix des outils de traitement et d’analyse des données scATAC-seq, faisant progresser l’épigénomique à cellule unique.

Points forts de l’expérience

  • Applicabilité des outils : Évaluation de l’applicabilité des outils RNA-seq aux données scATAC-seq, introduisant de nouvelles méthodes d’analyse.
  • Évaluation complète : Analyse systématique de l’impact de l’imputation et de la conversion de l’activité génique sur les résultats d’analyse, fournissant des données comparatives détaillées et des indicateurs d’évaluation.
  • Guide pratique : Fourniture d’un guide clair pour le choix des outils, offrant une précieuse référence aux chercheurs lors du traitement de différents types de données à cellule unique.

Autres informations précieuses

Tous les ensembles de données utilisés dans cette étude sont publiquement disponibles, et les scripts d’analyse ainsi que les processus détaillés de traitement des données sont également partagés ouvertement, rendant cette étude hautement reproductible et précieuse pour une application généralisée.