COME:基于对比映射学习的单细胞RNA测序数据空间重建方法

单细胞RNA测序(scRNA-seq)技术能够以单细胞分辨率进行高通量转录组分析,极大地推动了细胞生物学的研究。然而,scRNA-seq技术的一个显著局限性是,它需要将组织解离,导致细胞在组织中的原始空间位置信息丢失。空间转录组学(Spatial Transcriptomics, ST)技术能够提供精确的空间基因表达图谱,但其在基因检测数量、成本以及细胞类型注释的精细度方面存在限制。因此,如何在scRNA-seq数据中恢复空间信息,成为了当前研究的一个重要挑战。

为了解决这一问题,研究人员提出了通过细胞对应学习(cell correspondence learning)在scRNA-seq和ST数据之间传递知识的方法,从而恢复scRNA-seq数据中的空间信息。然而,现有的方法在建模局部和全局关系、整合细胞类型信息等方面存在不足,导致空间映射的准确性有限。

论文来源

这篇论文由来自香港城市大学、汕头大学、汕头大学医学院和华南理工大学的科研团队共同完成。主要作者包括Xindian Wei、Tianyi Chen、Xibiao Wang等,通讯作者为汕头大学的Cheng Liu和香港城市大学的Hau-San Wong。论文于2025年2月24日发表在《Bioinformatics》期刊上,题为“COME: Contrastive Mapping Learning for Spatial Reconstruction of Single-Cell RNA Sequencing Data”。

研究流程与结果

研究流程

COME方法的核心是通过对比学习框架(contrastive learning framework)在scRNA-seq和ST数据之间建立映射关系,从而恢复scRNA-seq数据的空间信息。研究流程主要包括以下几个步骤:

  1. 数据预处理
    研究使用了来自三个不同生物系统(果蝇胚胎、小鼠初级视觉皮层和人类胰腺癌)的scRNA-seq和ST数据集。首先,研究人员对数据进行标准化处理,确保每个细胞的总基因表达量一致。然后,通过选择scRNA-seq和ST数据中共有的基因,将两种数据模态对齐。

  2. 细胞对应学习
    研究采用了一个共享的自动编码器(autoencoder)来提取scRNA-seq和ST数据的潜在表示。通过解码scRNA-seq数据的潜在编码,生成重建的空间数据。此外,引入了一个系数层(coefficient layer)来学习从scRNA-seq到空间域的映射。系数矩阵(coefficient matrix)用于捕获细胞与空间点之间的关联强度。

  3. 对比学习模块
    为了增强潜在特征表示的区分能力,研究设计了一个对比学习模块。该模块包括细胞类型对比学习(cell-type contrastive learning)和跨模态对比学习(inter-contrastive learning)。细胞类型对比学习利用scRNA-seq数据的细胞类型信息,使相同类型的细胞在潜在空间中更接近。跨模态对比学习则通过映射矩阵,使scRNA-seq和ST数据的潜在特征表示更加一致。

  4. 优化与评估
    研究人员通过结合重构损失、系数正则化损失和结构相似性正则化损失,优化了网络模型。最终,通过预测scRNA-seq细胞的空间位置,验证了COME方法的有效性。评估指标包括皮尔逊相关系数(PCC)、结构相似性指数(SSIM)、均方根误差(RMSE)等。

主要结果

  1. 空间基因重建
    在果蝇胚胎数据上的实验表明,COME方法在重建空间基因表达方面显著优于其他方法。COME的PCC中位数显著高于其他方法,尤其是在重建具有明确空间特征的基因(如twi、ftz和cg11208)时,COME的表现尤为突出。

  2. 细胞分辨率空间转录组数据分析
    在小鼠初级视觉皮层数据上的实验中,COME方法在预测基因空间模式方面表现优异。特别是在STARmap数据集上,COME的PCC中位数达到了0.233,比第二好的方法提高了12%。此外,COME能够准确推断出谷氨酸能神经元(glutamatergic neurons)在组织中的分层分布,与先前的研究结果一致。

  3. 空间反卷积
    在人类胰腺癌数据上的实验中,COME方法成功区分了癌区和非癌区的细胞类型分布。COME能够准确预测肿瘤微环境(TME)中主要细胞类型的位置,并与标记基因的表达模式高度一致。相比之下,其他方法(如Tangram和GraphST)在区分癌区和非癌区时表现较差。

结论与意义

COME方法通过对比学习框架,有效地恢复了scRNA-seq数据的空间信息,并在多个生物系统中验证了其准确性和通用性。该方法不仅能够重建空间基因表达模式,还能够推断细胞类型在组织中的分布,为理解细胞间的相互作用和功能提供了重要工具。

研究亮点

  1. 对比学习框架
    COME方法首次将对比学习引入scRNA-seq和ST数据的映射学习中,显著提高了空间重建的准确性。

  2. 整合细胞类型信息
    通过细胞类型对比学习,COME方法能够更好地捕捉相似细胞类型之间的空间依赖关系,增强了模型的生物学意义。

  3. 广泛的应用价值
    COME方法在多个生物系统中的成功应用,展示了其在空间转录组学研究中的广泛潜力,特别是在肿瘤微环境和神经科学研究中的应用前景。

其他有价值的信息

COME方法的代码已在GitHub上开源(https://github.com/cindyway/come),研究人员可以自由下载和使用。此外,研究团队还提供了详细的数据预处理和评估流程,方便其他研究者复现和扩展该研究。


这篇论文为单细胞转录组学数据的空间重建提供了新的思路和方法,具有重要的科学价值和应用前景。通过COME方法,研究人员能够更深入地理解细胞在组织中的空间分布和功能,为疾病研究和治疗提供了新的工具。