单细胞ATAC-Seq数据的基因集合评分算法基准测试

基因集合评分工具对单细胞ATAC-seq数据的基准测试

作者: Xi Wang, Qiwei Lian, Haoyu Dong, Shuo Xu, Yaru Su, Xiaohui Wu
单位: Pasteurien College(苏州大学苏州医学院),厦门大学自动化系,福州大学数学与计算机科学学院
通讯作者: xhwu@suda.edu.cn
期刊: 《Genomics, Proteomics & Bioinformatics》
发布日期: 2024年2月9日(在线公布)

导论

转座酶可及染色质测序(ATAC-seq)是一种强大且常用的表观基因组技术,通过测序分析全基因组范围内的染色质可及性。近来,单细胞ATAC-seq(scATAC-seq)技术使得研究单细胞中的染色质可及性成为可能,揭示了染色质调控机制的新细胞亚群。然而,与单细胞RNA测序(scRNA-seq)相比,针对scATAC-seq的计算模型发展明显滞后。基因集合评分(GSS)已在RNA-seq数据中广泛应用,但针对scATAC-seq的GSS工具较少。为填补这一空白,本研究全面基准测试了十种GSS工具,包括单细胞RNA-seq工具和全体RNA-seq工具,并比较它们在scATAC-seq数据上的性能。

方法

本研究系统性地评估了十种GSS工具,包括四种全体RNA-seq工具(PLAGE、Z-score、ssGSEA、GSVA),五种单细胞RNA-seq工具(AUCell、pagoda2、VISION、VAM、unipath),以及一种特定于scATAC-seq的工具(unipathatac)。使用多组scATAC-seq数据集进行评估,包括八个独立的scATAC-seq数据集和三个配对的scATAC-seq与scRNA-seq数据集。研究流程包括数据预处理、基因活性转化、GSS应用以及结果评估。为解决数据稀疏性的问题,本研究还评估了不同填补缺失的方法对GSS结果的影响。最后,提供了在不同应用场景中选择适当预处理方法和GSS工具的实用指南。

主要结果

  • GSS工具适用性评估: 测试了RNA-seq的GSS工具在scATAC-seq上的适用性,发现它们的性能与scRNA-seq数据上的表现相当。特别是pagoda2和PLAGE在多个数据集和场景下表现最佳。
  • 基因活性转化和填补缺失的影响: 基因活性转化(GA)的不同工具对GSS的影响有限,但填补缺失可以显著提高几乎所有GSS工具的性能。基于scale和drimpute的填补表现最佳。
  • GSS工具性能: pagoda2和PLAGE在处理原始数据时表现最佳,而在填补缺失数据后,VISION的整体表现最优。GSS工具的具体性能依赖于数据以及预处理步骤。
  • 基因集合的影响: 不同基因集合的影响相对较小,但采用多个基因集合进行比较分析可以提供更全面的生物学解释。
  • 计算速度: VISION和Z-score计算速度最快,建议进行小规模数据集分析时优先考虑快速工具。

结论与应用价值

本研究通过系统性基准测试,验证了RNA-seq的GSS工具在scATAC-seq数据上的适用性,为未来研究提供了新方法。结果表明,pagoda2和PLAGE表现优异,推荐用于未填补的原始数据,而VISION在填补数据后则是最佳选择。基因活性转化和填补缺失的方法能显著影响GSS结果,使用scale或drimpute可提高准确度。实验结果为选择scATAC-seq数据处理和分析工具提供了实用指南,推动了单细胞表观基因组学的发展。

实验亮点

  • 工具适用性: 评估RNA-seq工具在scATAC-seq数据上的适用性,引入新的分析方法。
  • 综合评估: 系统分析了填补缺失和基因活性转化对分析结果的影响,提供了详尽的对比数据和评价指标。
  • 实用指南: 提供了明确的工具选择指南,为研究人员在处理不同类型的单细胞数据时提供了宝贵参考。

其他有价值信息

本研究使用的所有数据集均公开可用,分析脚本和详细数据处理流程也开放共享,使得本研究具有高再现性和推广应用价值。