单细胞轨迹的基因级对齐
基因级别单细胞轨迹比对:基于动态编程的新方法
单细胞RNA测序(Single-cell RNA sequencing, scRNA-seq)技术的出现,极大推动了生物学的研究进程,使科学家能够观察到时间或空间中单细胞水平上的动态变化。然而,如何跨样本或条件(如对照与药物处理、体外与体内实验、健康与疾病等)比较这些动态变化,依然是一个巨大的挑战。本次研究通过开发一种称为“genes2genes”的新工具,试图解决单细胞轨迹比对中的关键问题,特别是在基因级别上实现精确的动态变化匹配。
本文由来自 Wellcome Sanger Institute、University of Cambridge、Columbia University 等机构的研究人员合作完成,通讯作者为 Sarah A. Teichmann 教授。论文发表于《Nature Methods》杂志,发表时间为 2024 年 9 月 19 日。这项研究展示了如何利用贝叶斯信息理论和动态编程框架优化单细胞轨迹的匹配和错配,旨在解决当前方法对假设依赖性高以及无法捕捉插入和删除状态等限制。
研究背景与技术挑战
单细胞轨迹比对(trajectory alignment)是指通过探索基因表达动态的相似性或差异性,分析不同条件下细胞状态的变化。其中,“伪时间轨迹推断”(pseudotime trajectory inference)已成为研究单细胞动态变化的重要技术。伪时间为细胞的时间序列行为提供了排序,捕捉生物过程的连续性。然而,这些分析方法往往依赖动态时间规整(Dynamic Time Warping, DTW)算法,但这种传统方法受限于以下几方面: 1. 假设参考轨迹的每一时间点,在查询轨迹中都可以找到对应点。 2. 无法识别轨迹中的错配,即因插入(insertions)或删除(deletions)而未观察到的状态。 3. 使用欧几里得距离等简单指标,无法捕捉基因表达分布的复杂变化。
为了解决这些问题,本研究开发了一个新框架 genes2genes (g2g),采用动态编程与信息论的结合方式,在单基因分辨率下精确识别参考轨迹与查询轨迹之间的匹配和错配。
研究设计与方法流程
1. 研究方法概述
genes2genes 基于 Gotoh 动态编程算法的改进版本,扩展为包含五种状态(五状态模型):一对一匹配(match, m)、扩展匹配(one-to-many expansion warp, v)、压缩匹配(many-to-one compression warp, w)、插入(insertion, i)以及删除(deletion, d)。这使得 trajectories 的比对可以同时捕获时间点上细胞状态的匹配与错配。
此外,研究者引入了贝叶斯信息理论中的最小消息长度(Minimum Message Length, MML)推断方法,精确评估参考轨迹与查询轨迹对应时间点的基因表达分布差异。这种方法对比传统的欧几里得距离,能够更准确量化表达的均值和方差差异。
2. 数据预处理与插值分析
为了确保轨迹上的时间点更加均匀和平滑,研究引入了分布插值(distributional interpolation)方法。具体步骤包括: - 对轨迹伪时间轴进行归一化,将其标准化为 [0,1] 区间; - 选取 m 个等间距插值点; - 对于每个插值点,基于高斯核,在其附近伪时间范围内的单细胞基因表达分布估计均值和方差,并生成插值后的表达分布。
这种方法允许针对轨迹中变异较大的区域进行精细化插值,从而使后续比对更加可靠。
3. 动态编程评分机制与对齐算法
为了实现精确匹配,研究设计了一种基于消息传递模型的信息量计算方式。每对时间点计算以下两个成本: - 匹配成本:基于参考轨迹点和查询轨迹点的基因表达分布,采用 MML 推断框架,计算单一模型与独立模型的消息长度差。 - 状态迁移成本:基于五状态模型,考虑每种状态的转换概率。
动态编程的核心是通过上一步的最优得分推导下一步的得分矩阵,最终从矩阵中反向回溯获取最优对齐路径。
研究结果
1. 模拟数据的验证
研究首先在三种类型(匹配、轨迹分歧、轨迹收敛)的模拟数据上验证 g2g 的性能,共生成 3,500 对轨迹。结果表明,与现有方法(如 cellalign 和 tragedy)相比,g2g 在基因级别对齐准确性方面显著提高,准确率接近 99%以上。特别是在处理轨迹分歧和收敛的情况下,g2g 准确捕捉了正确的匹配与错配区域,并且对错配区段的长度分布预测更加精确。
2. 实际生物数据中的应用
a. 炎症模型中的基因动态分析
在一组小鼠骨髓来源树突状细胞的刺激数据中,g2g 发现了关键抗病毒基因(如 irf7 和 stat2)在两种刺激条件下(Pam 和 LPS)存在早期表达错配和晚期表达高峰错配,精准揭示免疫反应动态中的细胞亚群变化。
b. 肺纤维化疾病中的细胞分化对比
研究将来源于健康肺和特发性肺纤维化(Idiopathic Pulmonary Fibrosis, IPF)患者的上皮细胞分化轨迹进行比对,发现 aberrant basaloid 细胞在 IPF 中的异常分化模式与 EMT(上皮间质转化)相关基因(如 NNMT 和 CAMK1D)的早期表达变化有关。这提示了 IPF 中病理分化的潜在调控靶点。
c. 体外与体内 T 细胞分化的优化
研究展示了体外诱导多能干细胞分化为 T 细胞过程与体内胸腺发育的差异,发现 TNF 信号通路在体外成熟 T 细胞中的缺失。基于 g2g 分析结果,研究在分化后期补充 TNF 实验显示,体外培养的 T 细胞变得更接近成熟型体内 T 细胞特性。
3. 研究结论与意义
这项研究不仅提出了一个创新性的单细胞轨迹比对框架,还通过多项实际生物对比分析,展示了其在揭示动态基因表达模式和优化体外细胞培养中的潜在应用价值。特别是对疾病模型、器官类器官培养的优化、新疗法靶点发现等领域,g2g 提供了精确的解析工具。
4. 研究亮点
- 全新算法设计:通过动态编程结合信息理论,突破传统 DTW 的限制。
- 单基因分辨率:基因级别的对齐揭示了分子层面轨迹差异。
- 广泛适用性:在模拟数据和实际生物数据中均表现优异,可应用于多种单细胞研究背景。
- 操作简便:g2g 提供了开源工具,降低单细胞数据分析的门槛。
g2g 的推出为单细胞轨迹比较研究开辟了新方向,其在疾病建模、细胞状态解析以及体外实验优化等领域具有重要潜力。