通过计算饱和诱变法鉴定克隆性造血驱动突变

引言

在健康的造血过程中,一组造血干细胞(Hematopoietic Stem Cells,简称HSC)贡献了所有与血液相关的谱系。然而,随着年龄的增长,这一过程常常会导致克隆性造血(Clonal Hematopoiesis,简称CH)的发生,即由某个HSC源头的克隆扩展,占据了很大一部分的血细胞和血小板。这个克隆扩展现象由HSC在生命过程中获得的躯体突变驱动,并在老年人群中高度普遍。与CH相关的基因突变赋予HSC生长优势,使其在造血过程中受到正选择(1-13)。近年来,大量研究表明,CH与血液恶性肿瘤发展、心血管疾病、全因死亡率以及实体肿瘤和传染病的风险增加相关(2, 7, 14-20)。尽管最近的深入研究已确认了大约60个CH驱动基因(1, 12, 13, 21),但我们对这些基因中的哪些突变能驱动克隆扩展的理解仍然非常有限。

有研究团队总结了关于多个CH基因的知识,并制定了一系列由专家策划的规则,以选择最有可能驱动CH的突变。这些规则通常与严格的变异过滤步骤结合应用于健康个体的血液样本中所识别的变异。然而,这些规则存在一些局限性,它们无法直接从CH突变信息中学习或系统性更新,且覆盖的基因数量和知识深度存在异质性。

为了克服这些障碍,研究人员采用了一种基于机器学习的方法,以建立解释性模型,训练在可用的高质量CH突变数据上。这些模型能够揭示CH突变中的复杂模式,并能随着更多CH突变数据集的出现而扩展(本文第28节)。本研究的目标是通过使用这种方法构建12个CH驱动基因的模型,以准确识别CH驱动突变,并在近五十万名英国生物银行(UK Biobank)捐赠者中验证这些模型的性能。

研究来源

本文由Santiago Demajo等人撰写,这些作者分别来自于Institute for Research in Biomedicine (IRB Barcelona)、Centro de Investigación Biomédica en Red en Cáncer (CIBERONC)和University Pompeu Fabra等机构。文章发表在2024年9月的《Cancer Discovery》期刊上。

研究流程

实验设计和方法

  1. 数据收集和处理

研究团队首先从三大癌症基因组学队列(TCGA,HMF,MSK-IMPACT)中收集到了超过33,000名癌症患者的数据,通过反向调用消除生殖系污染,得到了高质量的血液躯体突变数据。这些数据用于训练机器学习模型,以识别CH驱动突变。

  1. 模型构建和验证

研究团队使用XGBoost(Version 0.90)训练了基因特异性机器学习模型,称为BOOSTDM-CH。模型的训练依赖于一组高质量的正样本(已知的CH驱动突变)和负样本(中性突变的合成集合)。特征包括线性序列中突变的显著聚集、三维折叠结构中的聚集、功能域的富集、突变的结果类型及其在脊椎动物中的保守程度等。

  1. 实验设计

研究人员设计了交叉验证实验来评估模型性能,同时使模型对预测结果进行解释(例如,基于SHAP值分析特征贡献)。

主要实验结果

  1. 模型性能评估

BOOSTDM-CH模型在交叉验证中展示了优越的性能,例如对于DNMT3A基因,模型的F50值范围在0.86至0.99之间。这些模型在将观测到的CH突变分类为驱动突变和非驱动突变时,优越性明显高于专家策划的规则。

  1. 应用于大规模队列

在UK Biobank的数据集上,研究团队应用了BOOSTDM-CH模型,以识别467,202名捐赠者中的201,857个潜在突变,并对其进行分类。模型识别出的CH驱动突变在92.5%的病例中只有一个驱动突变,类似于观察到的实际驱动突变。响应与年龄、吸烟史、心血管疾病、血液恶性肿瘤和全因死亡等临床相关特征建立了统计学上显著的相关性。

  1. 变异分布和特征解析

借助BOOSTDM-CH模型,研究团队能够基于模型得分对CH驱动突变进行深度解析,例如在DNMT3A中,高置信度的突变(得分≥0.9)集中在特定区域内,表明这些区域的突变显著干扰了蛋白质正常功能。

研究结论

本文通过构建和验证基于机器学习的模型来识别12个CH驱动基因中的驱动突变,展示了这些模型相较于传统由专家策划的规则的优势,同时揭示了更多复杂的CH突变模式和机制。BOOSTDM-CH模型在识别CH驱动突变的准确性方面表现优越,为未来大规模队列研究揭示CH与各种病症的关联提供了有力工具。

研究亮点

  1. 机器学习方法的应用

此研究是首次将机器学习方法成功应用于CH驱动突变的识别,避免了传统专家策划规则中的主观偏见,具有创新性。

  1. 大规模验证

研究在UK Biobank的大规模队列中验证了模型的性能,结果显示模型能够准确识别CH驱动突变,且与多种临床特征建立了显著的关联。

  1. 对CH机制的深入理解

通过训练和应用BOOSTDM-CH模型,研究为进一步理解CH突变在不同基因中的机制提供了新的视角和工具。

附加信息及未来展望

研究团队已将BOOSTDM-CH模型及其相关数据在Intogen网站(www.intogen.org/ch/boostdm)上公开,供研究社区使用,并计划随着更多数据集的出现进一步扩展和优化模型。未来,该模型在大规模回顾性或前瞻性临床研究中具有广泛的应用前景,有助于监测高风险个体的健康状况,支持个性化治疗方案的制定。

结论

本研究展示了利用基于机器学习的BOOSTDM-CH模型识别和解析CH驱动突变的潜力,为CH研究和大规模队列数据的精准分析提供了新颖且有效的方法。通过深入挖掘UK Biobank等大规模队列中的数据,BOOSTDM-CH模型不仅帮助科学家更好地理解CH的机制,还为未来的研究和临床应用提供了宝贵的资源。