207个棉花遗传变种中单核苷酸位点的全基因组层次上DNA甲基化多态性揭示表观基因组对复杂性状的贡献

棉花种群水平DNA甲基化多态性研究揭示表观基因组对复杂性状的贡献

背景与研究动机

在过去几十年中,基因组和基因多样性通过全基因组关联研究(GWAS)被广泛研究,为理解作物性状变异提供了理论基础。然而,DNA甲基化等表观遗传修饰在调控作物性状方面的作用依旧相对不明确。DNA甲基化,是一种重要的表观遗传标记,通过在胞嘧啶(Cytosine)上加上甲基基团,调控基因表达、维持基因组稳定性,并在多种作物的农艺性状中起关键作用。研究发现,基因组甲基化水平的多态性与生态适应性状有关,但在自然作物种群中,表观遗传变异对作物性状的贡献仍然需要更深入的探索。

基于此需求,来自浙江大学和阿里巴巴集团等研究机构的科学家们开展了一项系统的研究,首次在207个棉花品种中生成了高质量的甲基组、转录组和基因组数据,扩展了传统种群遗传学的框架到表观遗传学。研究不仅系统分析了DNA甲基化多态性在基因区域和转座子等不同基因组区域中的分布,还揭示了DNA甲基化对棉花纤维性状的调控作用,为下一步的作物改良提供了表观基因组资源。本文于2024年发表在《Cell Research》上。

研究设计与方法

样本收集与多组学数据获取

研究中,研究团队在中国杭州培育了207份核心棉花种质资源(CUCP1),并在花后20天采集其纤维样本,用于全基因组亚硫酸盐测序(WGBS)和转录组测序(RNA-seq)。研究生成了540亿个WGBS数据和4.42亿个RNA-seq数据,为分析棉花品种特异性基因表达和DNA甲基化状态奠定了数据基础。

研究团队通过严格的数据处理与质量控制,测定了CG、CHG、CHH三种甲基化类型的胞嘧啶总数,并构建了甲基化变异图谱。通过WGBS测序与RNA-seq检测,获得了广泛的甲基化位点变异数据,并结合群体水平的遗传信息,为棉花表观基因组对性状的调控作用提供了全面的数据支持。

基因组甲基化分布特征分析

研究结果显示,棉花基因组的CG甲基化水平约为72%,CHG甲基化水平约为55%,CHH甲基化水平为11%,这种甲基化分布在基因丰富区中显示出显著的多样性。研究还通过甲基化连锁不平衡(Methylation Disequilibrium, MD)的概念,分析了DNA甲基化在基因区域中的分布,发现CG和CHG序列的甲基化倾向于在细胞分裂过程中维持稳定,而CHH甲基化则相对不稳定。

甲基化与基因表达的关联分析

在基因组范围内,研究通过cis-methylation quantitative trait loci(cis-meQTLs)分析,确定了大量影响基因表达的甲基化位点(SMPs),并进一步分析了这些位点在基因组中分布的特性。研究发现,超过36.39%的cis-eQTM基因与遗传变异无关,表明大量的DNA甲基化位点独立于SNPs(单核苷酸多态性)调控基因表达。

通过多组学关联网络的构建,研究团队进一步揭示了DNA甲基化在纤维发育中的重要基因,例如编码CBL互作蛋白激酶10(CIPK10)的基因。该基因的甲基化状态与纤维长度密切相关,并通过基因编辑技术在实验中验证了其在纤维长度调控中的功能。这一发现为利用DNA甲基化数据改良作物提供了潜在的基因资源。

主要研究发现

SMP数量显著多于SNP

本研究发现棉花基因组中的SMPs数量是SNPs的100倍,这表明在种群水平上DNA甲基化的多态性远超基因多态性。SMPs在基因区域内表现出高富集性,尤其是在内含子和基因启动子区域,这种特性也在拟南芥的研究中得到印证。

甲基化多态性对纤维性状的影响

通过表观基因组关联研究(EWAS),团队共发现1715个与产量和纤维质量相关的表观遗传位点。尤其值得注意的是,这些位点中仅有2.10%与基因组关联研究(GWAS)位点重叠,表明表观遗传位点可能独立于SNPs调控性状变异。进一步的分析显示,CG甲基化和CHG甲基化对基因表达有较强的负相关作用,尤其是在启动子区域,而CHH甲基化对基因调控的作用则相对较弱。

纤维发育相关基因网络的构建

研究团队利用多组学关联网络,结合GWAS和EWAS分析构建了棉花纤维发育的基因调控网络。该网络包含634个连接,涉及397个基因,其中包括多个与纤维伸长相关的关键基因。此外,通过构建表观遗传调控网络,研究揭示了纤维发育过程中表观遗传与基因组遗传协同作用的复杂性。

基因编辑验证CIPK10基因在纤维调控中的作用

研究团队利用CRISPR/Cas9基因编辑技术对CIPK10基因进行了敲除实验,结果显示敲除CIPK10基因显著缩短了纤维长度,验证了其在棉花纤维发育中的关键作用。这一发现不仅验证了DNA甲基化与农艺性状的关联性,还提供了利用表观基因组资源改良作物的实验证据。

深度学习模型预测功能性甲基化位点

为了提高DNA甲基化位点在基因表达调控中的预测准确性,研究团队开发了深度学习模型DeepFDML(Deep Functional DNA Methylation Loci)。该模型基于棉花基因组序列数据和分子特征,通过卷积神经网络和Transformer层结构,成功预测了功能性CG位点。模型的受试者工作特性曲线(ROC)和精确度-召回曲线(PRC)得分分别达到0.82和0.78,展示了深度学习在基因组功能位点预测中的潜力。

研究意义与展望

本研究的多组学关联分析不仅揭示了棉花纤维发育的分子调控机制,还扩展了表观基因组对复杂性状调控的研究框架。该研究首次在棉花基因组层面提出了SMP和SNP之间的差异,表明DNA甲基化可以作为作物改良中的一个独立分子标记。此外,DeepFDML模型的开发和验证为表观遗传功能位点的预测提供了新的方法和工具,这将有助于未来在无表观基因组数据的相关物种中开展功能预测和遗传改良。

结论

本研究为棉花纤维品质和产量的改良提供了重要的表观遗传学资源,并展示了DNA甲基化作为独立调控层在作物复杂性状中的作用。随着深度学习模型的引入,未来可以通过序列数据直接预测功能性甲基化位点,进一步推动农作物的遗传改良。