ACImpute:基于约束增强平滑方法的单细胞RNA测序数据插补

单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)技术近年来在生物学和医学研究中得到了广泛应用,它能够揭示单个细胞的转录组信息,从而帮助科学家更好地理解细胞的异质性和复杂性。然而,scRNA-seq数据中存在一个普遍的问题,即“dropout事件”(dropout events)。这些事件导致许多基因在单个细胞中的表达值被记录为零,而这些零值可能分为两类:一类是“生物零”(biological zeros),表示基因在该细胞中确实没有表达;另一类是“技术零”(technical zeros),由于测序技术的限制导致基因表达未被检测到。这种数据稀疏性严重影响了后续分析的准确性和有效性,例如细胞聚类和轨迹推断。

为了解决这一问题,研究人员开发了多种插补方法(imputation methods),包括基于模型的插补、数据平滑和矩阵分解等。然而,现有的方法在处理大规模数据时往往存在过度平滑(oversmoothing)的问题,导致细胞间的异质性被抹平,从而影响分析结果的准确性。因此,开发一种能够有效恢复基因表达并保留细胞间异质性的插补方法成为了一个重要的研究方向。

论文来源

本论文由来自武汉工程大学数学与物理学院的Wei Zhang、Tiantian Liu、Han Zhang和Yuanyuan Li共同撰写,通讯作者为Yuanyuan Li。论文于2025年发表在《Bioinformatics》期刊上,题目为“ACImpute: A Constraint-Enhancing Smooth-Based Approach for Imputing Single-Cell RNA Sequencing Data”。论文的代码已在GitHub上开源,供研究者使用和改进。

研究流程与结果

1. 数据预处理

研究的第一步是对原始scRNA-seq数据进行预处理。由于不同细胞在测序过程中可能受到技术因素的影响,例如实验操作和捕获效率的差异,数据需要进行归一化处理。归一化后的矩阵通过计算变异系数(coefficient of variation)筛选出高变异基因,以提高后续聚类的准确性。

结果:归一化后的数据矩阵和高变异基因矩阵为后续的插补分析奠定了基础。

2. 马尔可夫转移矩阵的计算

接下来,研究团队使用高变异基因矩阵计算了稳定的转移概率矩阵(Markov transition matrix)。首先,通过主成分分析(PCA)将高维数据降维,减少噪声并提高计算效率。然后,基于K近邻(KNN)策略计算细胞间的亲和力矩阵(affinity matrix),并通过对称化和归一化处理得到马尔可夫转移矩阵。

结果:稳定的转移概率矩阵为后续的插补提供了细胞间的转移概率信息。

3. 幂指数的计算

为了进一步优化插补效果,研究团队根据基因表达水平与dropout率之间的负相关关系,设计了幂指数矩阵(power exponent matrix)。具体来说,基因表达水平越低,dropout率越高,因此在插补过程中,低表达基因的转移概率应受到更强的约束。通过归一化处理,幂指数矩阵的范围被限制在1到3之间。

结果:幂指数矩阵有效地约束了不同表达水平基因的转移概率,防止了过度平滑。

4. 单细胞数据的插补

最后,研究团队结合幂指数矩阵和转移概率矩阵,计算了插补矩阵。插补矩阵通过反向归一化处理,替换了原始矩阵中的零值,从而得到了最终的插补结果。

结果:插补后的数据矩阵有效地恢复了基因表达,同时保留了细胞间的异质性。

实验验证

1. 相关性分析

为了验证ACImpute的插补效果,研究团队使用了两个数据集进行相关性分析。第一个数据集使用了已知浓度的ERCC基因作为参考标准,第二个数据集使用了批量RNA测序数据作为参考标准。结果表明,ACImpute在恢复基因表达方面显著优于其他插补方法。

结果:ACImpute在相关性分析中表现出色,能够有效恢复基因表达。

2. 聚类分析

研究团队进一步对六个真实数据集进行了聚类分析,使用了三种聚类评价指标:调整兰德指数(ARI)、归一化互信息(NMI)和纯度(purity)。结果表明,ACImpute在大多数数据集中的聚类性能优于其他插补方法。

结果:ACImpute在聚类分析中表现出色,能够有效分离不同细胞类型。

3. 轨迹推断

最后,研究团队使用Monocle2算法对插补后的数据进行了轨迹推断分析。结果表明,ACImpute在轨迹推断中的表现优于其他方法,能够更好地反映细胞分化过程中的动态变化。

结果:ACImpute在轨迹推断中表现出色,能够有效揭示细胞分化轨迹。

结论与意义

本论文提出了一种基于平滑约束的插补方法ACImpute,通过约束不同表达水平基因的转移概率,有效防止了过度平滑问题。实验结果表明,ACImpute能够有效恢复基因表达,保留细胞间的异质性,并在聚类分析和轨迹推断中表现出色。ACImpute的提出为scRNA-seq数据的插补提供了新的思路,具有重要的科学价值和应用前景。

研究亮点

  1. 创新性:ACImpute通过约束不同表达水平基因的转移概率,有效防止了过度平滑问题。
  2. 高效性:ACImpute在处理大规模数据时具有时间优势,能够快速完成插补分析。
  3. 广泛应用:ACImpute在聚类分析和轨迹推断中的出色表现,使其在生物学和医学研究中具有广泛的应用潜力。

未来展望

尽管ACImpute在插补效果上取得了显著进展,但仍有一些改进空间。例如,在计算幂指数矩阵时,参数n的选择可能影响插补结果的准确性。未来,研究团队计划进一步优化算法,使其能够更好地适应不同数据集的需求,并区分生物零和技术零。