多尺度足迹揭示顺式调控元件在细胞分化和衰老过程的作用

多尺度足迹揭示顺式调控元件在细胞分化和衰老过程的作用

背景介绍

基因表达的调控是细胞命运和疾病发生的关键机制之一,而顺式调控元件(cis-regulatory elements, CREs)在这一过程中扮演了重要角色。CREs通过结合多种效应蛋白(如转录因子和核小体)来动态调控基因的表达。然而,现有的研究方法在测量这些效应蛋白在基因组范围内的结合动态时存在局限性,尤其是在单细胞水平上。这导致我们难以全面理解CREs的结构如何与其功能相关联,尤其是在细胞分化和衰老过程中。

为了解决这一问题,来自Broad Institute of MIT and Harvard、Harvard University等机构的研究团队开发了一种名为PRINT的计算方法,能够从染色质可及性数据中识别DNA-蛋白质相互作用的多尺度足迹。基于此,他们进一步开发了Seq2Print框架,利用深度学习技术精确推断转录因子和核小体的结合,并解析CREs的调控逻辑。这项研究于2024年发表在Nature期刊上,题为《Multiscale footprints reveal the organization of cis-regulatory elements》。

研究团队与发表信息

该研究由Yan HuMax A. HorlbeckRuochi Zhang等多名研究人员共同完成,主要来自Broad Institute of MIT and HarvardHarvard University。研究团队通过结合计算生物学和实验生物学的方法,成功揭示了CREs在细胞分化和衰老过程中的动态变化。论文于2024年11月22日被接受,并于同年在线发表。

研究流程与结果

1. 多尺度足迹检测方法的开发(PRINT)

研究团队首先开发了PRINT方法,用于从染色质可及性数据中检测DNA-蛋白质相互作用的多尺度足迹。PRINT的核心创新在于克服了Tn5转座酶的序列偏好性,这种偏好性会显著干扰足迹检测的准确性。为此,研究团队训练了一个卷积神经网络(CNN),用于预测Tn5在去蛋白化DNA上的插入偏好。该模型在细菌人工染色体(BAC)数据上表现优异,显著优于传统的k-mer和位置权重矩阵(PWM)模型。

PRINT方法通过统计方法量化Tn5插入的显著缺失,从而生成足迹分数。研究团队验证了PRINT在体外实验中的有效性,发现PRINT能够准确检测到转录因子(如Myc/Max和CEBPA)的结合位点,而传统的ATAC-seq足迹方法则无法区分结合位点和背景信号。

2. 深度学习框架Seq2Print的开发

基于PRINT生成的多尺度足迹,研究团队进一步开发了Seq2Print框架。Seq2Print利用深度学习模型,从DNA序列中预测多尺度足迹,并推断转录因子和核小体的结合。该模型能够仅通过局部DNA序列作为输入,预测核小体和转录因子的足迹,并在HepG2细胞的ATAC-seq数据中表现出较高的预测精度(整体相关性为0.75)。

Seq2Print的一个重要功能是能够解析CREs中的序列特征,识别关键的转录因子结合位点。例如,在某个CRE区域中,Seq2Print成功识别了NFE2L2和NFYB等转录因子的结合位点,并揭示了这些因子在调控核小体定位中的潜在作用。

3. 单细胞数据的应用与细胞分化轨迹分析

研究团队将Seq2Print应用于人类骨髓单细胞ATAC-seq数据,分析了造血分化过程中CREs的动态变化。他们发现,CREs在分化过程中会经历顺序性的建立和扩展,尤其是在红细胞分化过程中,GATA和TAL等转录因子在早期结合,而KLF1和NFE2等因子则在后期结合。这种顺序性的结合模式与CREs的逐步扩展密切相关,揭示了增强子建立的动态过程。

4. 衰老过程中的CREs变化

研究团队还利用Seq2Print分析了小鼠造血干细胞(HSCs)在衰老过程中CREs的变化。他们发现,衰老伴随着核小体足迹的广泛减少和ETS复合基序的显著增加。这些变化可能与衰老过程中基因表达的失调有关,尤其是与HSCs功能下降相关的基因。

结论与意义

这项研究通过开发PRINT和Seq2Print方法,成功揭示了CREs在细胞分化和衰老过程中的动态变化。PRINT方法能够从染色质可及性数据中检测多尺度足迹,而Seq2Print则通过深度学习模型解析了CREs的序列特征和调控逻辑。这些方法不仅提高了转录因子结合预测的精度,还为理解CREs在基因调控中的作用提供了新的视角。

研究亮点

  1. 多尺度足迹检测:PRINT方法能够检测不同大小的DNA-蛋白质相互作用,显著提高了足迹检测的灵敏度和特异性。
  2. 深度学习框架:Seq2Print通过深度学习模型解析CREs的序列特征,能够预测转录因子和核小体的结合,并识别新的调控基序。
  3. 单细胞分辨率:研究团队将Seq2Print应用于单细胞ATAC-seq数据,揭示了CREs在细胞分化和衰老过程中的动态变化。
  4. 衰老相关发现:研究发现衰老伴随着核小体足迹的广泛减少和ETS复合基序的增加,为理解衰老过程中的基因表达失调提供了新的线索。

其他有价值的信息

研究团队还提供了PRINT和Seq2Print的预训练模型和基因组范围的Tn5偏好参考轨道,供其他研究人员使用。这些资源将有助于推动染色质可及性数据的进一步分析和应用。

这项研究通过结合计算生物学和实验生物学的方法,成功揭示了CREs在基因调控中的复杂动态,为理解细胞命运和疾病发生提供了新的工具和视角。