基于群体资源的单样本肿瘤亚克隆重构算法

基于群体资源的单样本肿瘤亚克隆重构算法

背景介绍

癌症的进化过程和肿瘤的基因异质性是现代肿瘤学研究的重要领域。肿瘤从正常细胞进化而来,通过获得体细胞突变逐步发展。这些突变受细胞染色质结构和内源性及外源性诱变压力的影响,以概率的方式发生。如果特定的突变为细胞提供了选择优势,其后代细胞可以在其局部环境中扩展。经过多年的积累,最终形成带有多种癌症标志的细胞群体,即克隆。不同的肿瘤细胞亚群(亚克隆)可以通过漂移或选择压力在整个细胞群体中出现。这种进化特征对临床具有重要意义,基因异质性与较差的预后、更多的突变和耐药性有关。因此,理解和量化肿瘤的进化过程对于癌症治疗和预后评估至关重要。

肿瘤亚克隆重构是一种常见的方法,通过利用体细胞单核苷酸变异(SNVs)和拷贝数异常(CNAs)的等位基因频率来量化肿瘤的进化特征。许多算法已被开发用于这一任务,采用贝叶斯推断等多种策略。然而,不同算法在准确性和适用性上存在显著差异,尚不清楚如何最佳地量化算法的准确性。因此,评估现有的亚克隆重构算法并确定其准确性决定因素显得尤为重要。

研究来源与发表信息

本文题为“Crowd-sourced benchmarking of single-sample tumor subclonal reconstruction”,由Adriana Salcedo等人撰写,发表于《Nature Biotechnology》期刊。本文研究得到了来自多个机构的作者合作,包括加利福尼亚大学洛杉矶分校、布鲁塞尔自由大学、安大略癌症研究所等。该研究基于ICGC-TCGA(国际癌症基因组联盟-癌症基因组图谱)DREAM体细胞突变识别挑战赛(SMC-Het挑战赛)进行,为期7年,利用云计算平台评估了31种亚克隆重构算法在51个模拟肿瘤中的表现。

研究流程与方法

研究设计

为评估肿瘤亚克隆重构算法,研究团队基于ICGC-TCGA的DREAM体细胞突变识别挑战赛及其肿瘤模拟框架,设计了51个肿瘤谱系,涵盖广泛的生物和技术参数。这些肿瘤中有25个基于手工整理的全基因组癌症分析研究(PCAWG)数据,其余26个分别基于非PCAWG肿瘤和单个乳腺肿瘤的特定边缘情况。研究团队利用Bamsurgeon模拟正常和肿瘤BAM文件,并使用GATK Mutect工具识别体细胞SNVs,Battenberg工具识别体细胞CNAs并估算肿瘤纯度。

算法评估

参与团队提交了31种容器化的工作流程,所有流程在可重复的云架构中执行。研究者添加了五种参考算法,包括随机预测、PCAWG的“知情蛮力”聚类算法、单一簇分配算法和两种最先进的算法(DPClust和PhyloWGS)。每种方法在七个子挑战中进行评估,分别为纯度(SC1a)、亚克隆数量(SC1b)、SNV细胞普及率(SC1c)、突变簇(SC2)和谱系(SC3),其中SC2和SC3分别包含确定性(SC2a和SC3a)和概率性(SC2b和SC3b)任务。每次预测使用已建立的框架评分,得分在{肿瘤,子挑战}对内进行归一化。

主要研究结果

算法性能评估

研究发现,不同算法在所有七个任务中的表现有显著差异,算法选择对性能的影响远大于肿瘤特征。具体来说,没有单一算法在所有任务中表现最佳,现有的集成策略也未能超越最佳的单一方法,这表明在亚克隆重构算法领域仍存在重要的研究需求。

最佳算法

研究团队基于所有肿瘤的中位得分对算法进行排名,发现SC1a和SC2b中各有一个表现最佳的提交,而SC1b和SC1c中有两个统计上无显著差异的提交,SC2a中有三个统计上无显著差异的提交。SC1a的最佳算法仅使用拷贝数调用推断纯度,而次优方法则结合了拷贝数和SNV聚类的纯度估计。

影响因素分析

通过分析肿瘤和算法特征,研究发现仅有少数肿瘤特征强烈影响重构准确性。对特定肿瘤特征的敏感性解释了不同算法在变异检测和数据分辨率方面的差异。特别地,肿瘤的纯度、拷贝数状态和突变负担对许多算法的表现有显著影响,而基于高斯噪声模型的算法在SNV共聚类任务中的表现较差。

数据内在特征和实验设计对准确性的影响

研究显示,实验设计中的主要可控技术特征是测序覆盖度。通过调整测序覆盖度以考虑肿瘤纯度和倍性,研究量化了NRPCC(每染色体拷贝数的读取数)对亚克隆重构的影响。结果表明,NRPCC越高,算法在SNV共聚类和肿瘤纯度估计方面的表现越好。然而,当NRPCC达到较高水平时,算法之间的差异成为主要变异来源。

错误源分析

研究还探讨了SNV细胞普及率估计的错误来源。大多数算法准确地确定了SNV是否为克隆突变,但在检测低频亚克隆突变时表现较差。此外,底层拷贝数状态对SNV克隆性分配准确性有显著影响,特别是子克隆拷贝数损失区域中的克隆性SNV。基于高斯噪声模型的算法在处理低频变异时表现较差,而算法对拷贝数变化的鲁棒性与其整体表现显著相关。

结论

本研究系统地评估了31种单样本肿瘤亚克隆重构算法在51个模拟肿瘤中的表现,揭示了算法选择和实验设计对重构准确性的显著影响。研究结果将有助于改进现有方法的应用和新方法的开发,以更好地理解肿瘤进化过程。此外,研究团队提供了在线工具,帮助用户根据数据集和研究问题选择最佳算法。

研究意义

这项研究为肿瘤亚克隆重构算法的评估提供了标准,促进了不同算法之间的比较和改进。通过揭示算法性能的关键影响因素,研究为未来的算法开发和优化提供了重要指导。同时,这项研究强调了高质量测序数据和适当实验设计在肿瘤进化研究中的重要性,为临床癌症治疗和预后评估提供了宝贵的参考。