癌症和游离DNA中的全基因组重复序列全景

癌症和游离DNA中的全基因组重复序列全景

研究概况

研究背景和意义

在癌症及其他疾病的发展过程中,基因组中重复序列的遗传变化是一个重要特征。然而,标准的测序方法难以有效地表征这些重复序列。为了应对这一挑战,该研究开发了一种新的方法,称为Artemis(Analysis of Repeat Elements in Disease),用于识别全基因组测序中的重复元素。通过分析多种癌症患者的组织和血浆样本,旨在探索这些重复元素的具体变化,并评估其对早期癌症检测和疾病监测的潜在应用价值。

论文来源

本研究由Akshaya V. Annapragada、Noushin Niknafs、James R. White等人共同完成,他们隶属于约翰·霍普金斯大学医学院Sidney Kimmel综合癌症中心和医学系。该成果发表在2024年3月13日的《Science Translational Medicine》期刊上,文章编号为eadj9283。

研究流程

总体流程概述

该研究涉及的总体流程包括开发Artemis方法、数据采集和处理、重复元素识别、机器学习建模、结果验证和临床应用评估。研究对象涵盖1975名患者的2837个组织和血浆样本,包括肺癌、乳腺癌、结直肠癌等多种癌症类型。

数据采集和处理

研究首先基于一种新的kmer搜索方法,在完整的T2T参考基因组(chm13)的基础上进行kmer(短序列)的去新识别,发现了总计12亿个24-bp的kmer。这些kmer被用于定义1280种重复元素类型,包括长散在核内的元素(LINEs)、短散在核内的元素(SINEs)、长末端重复序列(LTRs)、转座子元素和人类卫星家族。

重复元素的识别和分析

使用Artemis方法,研究分析了这些重复元素在不同癌症类型中的特定变化,发现其中820种元素在癌症中首次显示出变化。此外,重复元素在驱动基因区域中富集,这些变化与基因组结构变化和表观遗传状态有关。

机器学习模型的建立

通过机器学习分析全基因组重复景观及无细胞DNA(cfDNA)的碎片化图谱,研究开发了一种能够检测早期肺癌和肝癌的预测模型。该模型在交叉验证和外部验证的队列中均表现出较高的准确性,能够非侵入性地识别肿瘤的起源组织。

结果验证和临床应用评估

研究结果表明,重复景观变化在癌症基因组中广泛存在,这些变化能够通过cfDNA检测并用于癌症的早期检测和疾病监测。具体来说,机器学习模型的Artemis评分可以区分癌症和正常组织,并且与患者的整体生存率和无进展生存率密切相关。

研究结果

基因组范围重复元素的初步发现

通过去新识别,研究发现了12亿个特定的kmer,这些kmer能够表示1280种重复元素类型,并在全基因组的所有染色体上存在。对这些重复景观的进一步分析发现,其中有820种重复元素类型首次在癌症中显示出变化。

重复元素的基因组分布和癌症相关性

重复元素在癌症基因中的富集表明这些元素在癌症发生发展过程中可能发挥重要作用,例如在基因扩增、删除和重排中具有特定的结构变化功能。此外,在特定癌症类型中,重复元素在结构断裂点处的富集进一步证实了这些元素在促进这些结构变化中的潜在作用。

重复序列景观在cfDNA中的检测

研究表明,即使在低覆盖率全基因组测序中,也可以在cfDNA中可靠地检测到重复序列景观的变化。分析发现,在不同癌症类型中,cfDNA中的许多重复元素显示出与肿瘤组织一致的特定变化。此外,epigenetic状态(如组蛋白标志)的变化也影响了这些元素在cfDNA中的表示。

机器学习模型的性能评估

通过机器学习模型的Artemis评分,在分析癌症患者的cfDNA时,能够有效地区分癌症状态和正常状态。此外,模型的分数与患者的整体生存率和无进展生存率有显著关联,尤其是在晚期癌症患者中,高Artemis评分与较差的预后相关。

临床应用潜力

研究表明,通过融合Artemis评分和其他cfDNA碎片化特征的联合模型,可以实现对癌症患者的早期检测、监测和肿瘤起源组织的推断。特别是对于肺癌和肝癌的检测,该联合模型表现出高度的准确性和可靠性,有望在未来的临床应用中为癌症的早期筛查和个体化治疗提供新的工具。

结论

该研究通过开发Artemis方法,提供了一种新的基于重复元素的全基因组分析方法,能够检测并表征癌症中的广泛变化。这些结果不仅揭示了癌症基因组中重复序列的广泛变化,还为早期癌症检测和疾病监测提供了新的方法。未来通过进一步优化和验证这一方法,有望在癌症早期诊断和治疗中发挥重要作用。

研究的重要性

该研究为科学界提供了关于癌症基因组中重复序列变化的重要见解,揭示了这些变化在癌症发展中的潜在作用。同时,研究提出的Artemis方法为基于cfDNA的非侵入性癌症检测提供了新的策略,有利于早期发现和精准治疗。此外,通过多种癌症类型的分析,研究为进一步探索不同肿瘤在基因组水平上的共同特征和差异提供了重要数据。