大规模基因组测序研究中的高效存储与回归计算

随着大规模人口生物样本库的日益普及,全基因组测序(Whole Genome Sequencing, WGS)数据在人类健康和疾病研究中的潜力得到了显著提升。然而,WGS数据的庞大计算和存储需求给研究机构,尤其是资金不足的机构或发展中国家的研究人员带来了巨大挑战。这种资源分配的不平等限制了前沿遗传学研究的公平性。为了解决这一问题,Manuel A. Rivas和Christopher Chang等人开发了新的算法和回归方法,显著减少了WGS研究的计算时间和存储需求,特别是针对罕见变异的处理。

论文来源

这篇论文由Manuel A. Rivas和Christopher Chang共同撰写。Rivas来自斯坦福大学生物医学数据科学系,Chang则供职于Grail Inc.。该论文于2025年2月11日发表在《Bioinformatics》期刊上,题为《Efficient Storage and Regression Computation for Population-Scale Genome Sequencing Studies》。论文详细介绍了他们如何通过优化算法和存储方法,显著提升WGS研究的效率。

研究流程

1. 研究目标

研究的主要目标是开发一种能够显著减少WGS数据存储需求和计算时间的方法,特别是针对罕见变异的处理。通过将这些方法集成到PLINK 2.0中,研究人员希望能够在不牺牲分析准确性的前提下,大幅提升大规模基因组数据分析的效率。

2. 研究方法

a) 数据压缩与存储优化

研究人员开发了一种新的数据压缩算法,能够显著减少WGS数据的存储需求。该算法通过利用遗传变异中的模式,特别是罕见变异的特征,实现了数据的紧凑表示。具体来说,PLINK 2.0引入了PGEN格式,该格式对罕见变异采用了稀疏表示。例如,在400,000个样本中,一个仅有一个变异等位基因的变异在PLINK 1二进制格式中需要100,000字节,而在PGEN格式中仅需4字节的头部信息和5字节的主体信息。

b) 回归计算优化

研究人员还开发了新的回归计算方法,以应对WGS数据的大规模和复杂性。传统的回归方法在处理大规模数据时效率低下,因此他们采用了稀疏计算技术,显著提升了处理速度。具体来说,PLINK 2.0的--glm命令执行了基于稀疏基因型的线性回归和逻辑回归。通过优化计算过程,研究人员能够在处理大规模数据时显著减少计算时间。

3. 实验设计

为了验证这些方法的有效性,研究人员使用了All of Us项目中的19.4百万个变异数据和125,077个个体的身体质量指数(BMI)表型数据进行了全外显子组关联分析。结果显示,使用PLINK 2.0的新方法,计算时间从单机上的695.35分钟(11.5小时)显著减少到1.57分钟(使用30GB内存和50线程)或8.67分钟(使用4线程)。

4. 多表型分析

研究人员还扩展了该方法,支持多表型分析。他们使用50个表型数据进行全基因组关联分析,结果显示,使用单台虚拟机(30GB内存和50线程)完成分析仅需52分38秒。此外,他们还引入了--pheno-svd标志,通过奇异值分解(SVD)预处理表型数据,进一步提升了计算效率。

主要结果

1. 数据压缩效果

研究人员比较了不同文件格式对All of Us项目中外显子测序数据的存储需求。结果显示,PLINK 2.0的PGEN格式仅需39.0GB存储空间,相比于PLINK 1的BED文件(2TB)压缩了98%,相比于VCF文件(403GB)压缩了90%,相比于BGEN文件(165GB)压缩了77%。

2. 计算效率提升

在全外显子组关联分析中,使用PLINK 2.0的新方法,计算时间从单机上的695.35分钟显著减少到1.57分钟(使用50线程)或8.67分钟(使用4线程)。此外,在分析2型糖尿病表型数据时,使用cc-residualize模式的计算时间仅为7.68分钟(使用50线程),而使用firth-fallback模式则需要102.9分钟。

3. 多表型分析效率

在多表型分析中,使用--pheno-svd标志预处理表型数据后,计算时间从50分钟显著减少到2分钟,进一步提升了计算效率。

结论

该研究通过开发新的数据压缩和回归计算方法,显著减少了WGS研究的存储需求和计算时间,特别是针对罕见变异的处理。这些方法不仅提升了大规模基因组数据分析的效率,还为资金不足的研究机构和发展中国家的研究人员提供了更公平的研究机会。

研究亮点

  1. 显著的数据压缩效果:PGEN格式将存储需求压缩了98%,显著降低了大规模基因组数据的存储成本。
  2. 计算效率的显著提升:通过优化回归计算方法,计算时间从11.5小时减少到1.57分钟,大幅提升了分析效率。
  3. 多表型分析的支持:研究人员扩展了该方法,支持多表型分析,进一步提升了大规模基因组数据分析的灵活性。
  4. 公平的研究机会:这些方法为资金不足的研究机构和发展中国家的研究人员提供了更公平的研究机会,推动了基因组学研究的普及。

意义与价值

该研究不仅为大规模基因组数据分析提供了高效的工具,还为基因组学研究的普及和公平性做出了重要贡献。通过显著减少存储需求和计算时间,这些方法使得研究人员能够更高效地处理和分析大规模基因组数据,加速了科学发现的进程。此外,这些方法还为资金不足的研究机构和发展中国家的研究人员提供了更公平的研究机会,推动了基因组学研究的全球普及。