单细胞转录组学中的轨迹对齐:Tragedy方法的创新与应用
单细胞转录组测序(single-cell RNA sequencing, scRNA-seq)技术的出现,为研究细胞发育和分化过程中的基因表达动态提供了前所未有的分辨率。然而,由于生物过程的复杂性,不同条件下的细胞发育轨迹往往是不对称的,这给数据的整合和比较带来了挑战。现有的方法通常依赖于将不同条件下的样本整合后再进行聚类分析或推断共享轨迹,但这些方法在处理不对称轨迹时往往效果不佳,可能会掩盖关键的差异表达基因(differentially expressed genes, DEGs)。
为了解决这一问题,研究人员开发了一种新的方法——Trajectory Alignment of Gene Expression Dynamics (Tragedy)。Tragedy方法能够在不进行数据集整合的情况下,直接对齐独立的细胞发育轨迹,从而避免了整合过程中可能引入的误差。这一方法的提出,为研究不同条件下的细胞发育过程提供了更为精确的工具。
论文来源
这篇论文由Ross F. Laidlaw、Emma M. Briggs、Keith R. Matthews、Amir Madany Mamlouk、Richard McCulloch和Thomas D. Otto共同撰写。作者们分别来自University of Glasgow、University of Edinburgh、Newcastle University、University of Lübeck和Université de Montpellier等机构。论文于2025年3月11日发表在Bioinformatics期刊上,题为“Trajectory Alignment of Gene Expression Dynamics (Tragedy)”。
研究流程与结果
1. 数据准备与插值点生成
Tragedy方法的输入是两个已经计算了伪时间(pseudotime)的scRNA-seq数据集。为了减少计算复杂性和噪声,研究人员对数据集进行了插值处理,生成了用户定义数量的插值点。这些插值点代表了特定时间窗口内周围细胞的基因表达模式。插值点的伪时间窗口大小根据细胞密度进行调整,细胞密度高的区域窗口较小,细胞密度低的区域窗口较大。
2. 计算转录组差异
接下来,Tragedy计算了两个轨迹中所有插值点之间的转录组差异,并将这些差异存储在一个矩阵中。差异的计算可以使用欧几里得距离、皮尔逊相关系数或斯皮尔曼相关系数。默认情况下,Tragedy使用斯皮尔曼相关系数,并将其调整为0表示完全正相关。
3. 确定最优对齐路径
Tragedy通过动态时间规整(Dynamic Time Warping, DTW)算法来确定两个轨迹的最优对齐路径。研究人员首先确定了对齐路径的起始点和终点,并通过自举法(bootstrapping)来优化这些点的选择。最终,Tragedy选择了一条平均路径得分最低的对齐路径。
4. 对齐伪时间
在对齐路径确定后,Tragedy调整了插值点的伪时间,使得匹配的插值点具有相似的伪时间值。对于多匹配的情况,Tragedy通过缩放伪时间值来处理。最终,Tragedy将插值点的伪时间映射到单个细胞上,完成了整个对齐过程。
5. 差异表达分析
Tragedy使用滑动窗口软聚类的方法来比较两个条件下的差异表达基因。用户定义窗口的数量和重叠程度,Tragedy根据这些参数将细胞分配到不同的窗口中,并在每个窗口中进行统计比较。通过Mann-Whitney U检验和log2FC计算,Tragedy确定了差异表达基因。
主要结果
1. 模拟数据集的对齐
研究人员使用dyngen生成了三组模拟数据集,包括两个正对照和一个负对照。Tragedy在所有模拟数据集中都准确地捕捉到了轨迹的对齐情况,而现有的方法如CellAlign和genes2genes (g2g)在处理不对称轨迹时表现不佳。特别是在负对照数据集中,Tragedy正确地识别出两个数据集之间没有共同的生物过程。
2. 真实数据集的应用
研究人员将Tragedy应用于Trypanosoma brucei和T细胞发育的真实数据集。在Trypanosoma brucei的数据集中,Tragedy准确地捕捉到了野生型(WT)和zc3h20敲除(KO)细胞之间的对齐关系,并识别出了更多的差异表达基因。与Seurat和tradeSeq相比,Tragedy在识别生物相关基因和过程方面表现更为出色。
在T细胞发育的数据集中,Tragedy成功地比较了野生型和bcl11b敲除细胞的发育轨迹,并识别出了更多的差异表达基因。Tragedy的运行时间也显著短于tradeSeq,同时提供了更为丰富的生物学见解。
结论与意义
Tragedy方法的提出,为单细胞转录组学中的轨迹对齐和差异表达分析提供了新的工具。与现有方法相比,Tragedy能够在不进行数据集整合的情况下,直接对齐独立的细胞发育轨迹,从而避免了整合过程中可能引入的误差。通过这一方法,研究人员能够更准确地识别不同条件下的差异表达基因和生物过程,为理解细胞发育和分化提供了更为精确的工具。
研究亮点
- 创新的对齐方法:Tragedy通过插值点和动态时间规整算法,实现了独立轨迹的精确对齐,避免了数据集整合中的误差。
- 高效的差异表达分析:Tragedy使用滑动窗口软聚类的方法,能够在不同条件下识别更多的差异表达基因,提供了更为丰富的生物学见解。
- 广泛的应用场景:Tragedy不仅适用于模拟数据集,还能够处理复杂的真实数据集,如Trypanosoma brucei和T细胞发育。
未来展望
随着单细胞测序技术的不断发展,Tragedy方法有望在更多的生物学研究中得到应用。特别是在perturb-seq和lineage tracing技术的结合下,Tragedy将能够更准确地分析细胞发育过程中的基因表达动态,为揭示细胞命运决定的机制提供新的视角。