基于单细胞统一极化评估的免疫细胞极化分析方法

免疫细胞在应对多种刺激时会经历细胞因子驱动的极化过程,这一过程会改变其转录谱和功能状态。这种动态变化在健康和疾病中的免疫反应中起着核心作用。然而,目前尚缺乏一种系统的方法来评估单细胞RNA测序(scRNA-seq)数据中的细胞因子驱动极化现象。为了解决这一问题,研究人员开发了单细胞统一极化评估(SCUPA)方法,这是首个用于全面评估免疫细胞极化的计算方法。

论文来源

该论文由Wendao LiuZhongming Zhao共同撰写,他们分别来自The University of Texas MD Anderson Cancer Center UTHealth Houston Graduate School of Biomedical SciencesCenter for Precision Health, McWilliams School of Biomedical Informatics, The University of Texas Health Science Center at Houston。论文于2025年2月25日发表在Bioinformatics期刊上。

研究流程

1. 数据收集与预处理

研究人员首先从Single Cell Portal下载了免疫字典(Immune Dictionary)的scRNA-seq数据集,该数据集包含了小鼠淋巴结中86种细胞因子处理的免疫细胞的单细胞转录组数据。此外,还从SeuratDataGene Expression Omnibus (GEO)数据库下载了其他相关数据集,包括IFN-β处理的人类外周血单核细胞(PBMC)数据集、细胞因子处理的人类巨噬细胞数据集、IL-2处理的小鼠脾脏数据集以及泛癌浸润性髓系细胞数据集。

2. 生成细胞嵌入与降维

研究人员使用单细胞基础模型Universal Cell Embeddings (UCE)生成所有scRNA-seq数据集的细胞嵌入(cell embeddings)。为了降低维度,他们对UCE细胞嵌入进行了主成分分析(PCA),并使用前20个主成分作为机器学习模型的输入特征。此外,还生成了二维的UMAP图用于数据可视化。

3. 识别完全极化的细胞

研究人员根据三个标准识别了每个极化状态的完全极化细胞:(1)细胞来自某种驱动细胞因子处理的样本;(2)细胞中极化标记基因的平均表达高于大多数其他细胞;(3)细胞的UCE细胞嵌入与驱动细胞因子处理样本的其他细胞相似。通过计算“嵌入偏移量”和余弦相似度,研究人员筛选出了完全极化的细胞,并将其用于机器学习模型的训练。

4. 机器学习模型的训练与测试

研究人员测试了多种机器学习模型,包括逻辑回归、支持向量机(SVM)、随机森林和半监督学习方法。最终选择了SVM模型,因为其在所有极化状态中表现最佳。模型训练时,未极化细胞标记为0,完全极化细胞标记为1。模型通过20次重复训练和测试,计算了平均AUROC值。

5. 统计不确定性的量化

由于免疫细胞极化是一个连续过程,研究人员使用了conformal prediction来量化极化评估中的统计不确定性。通过计算非一致性分数(nonconformity scores),模型可以对每个细胞进行极化、未极化、中间状态或不确定的预测。

6. 跨数据集批次效应校正

为了增强SCUPA在不同数据集中的可转移性,研究人员提供了一种简单有效的跨数据集批次效应校正方法。通过调整UCE细胞嵌入,模型可以绕过复杂的数据整合过程,保留极化信息。

7. 单细胞基础模型的基准测试

研究人员比较了使用UCE、scGPT和scFoundation三种单细胞基础模型的细胞嵌入预测免疫细胞极化的效果。结果表明,UCE和scFoundation模型在预测极化状态时表现相似,而scGPT模型的性能较低。

主要结果

1. SCUPA框架与免疫细胞极化状态

SCUPA利用免疫字典中的免疫细胞极化状态作为参考,训练机器学习模型来区分细胞因子处理样本中的极化细胞和未极化细胞。通过使用UCE细胞嵌入,SCUPA能够有效捕捉不同物种和实验条件下的极化细胞。

2. SCUPA在体外细胞因子刺激数据集中的表现

在IFN-β处理的人类PBMC数据集中,SCUPA能够准确分类刺激和未刺激的细胞,AUROC值高于0.99。在细胞因子处理的人类巨噬细胞数据集中,SCUPA能够识别不同细胞因子驱动的极化状态,并揭示了不同极化状态之间的相关性。

3. SCUPA在体内细胞因子治疗数据集中的应用

在IL-2处理的小鼠脾脏数据集中,SCUPA揭示了IL-2驱动的极化状态,并发现IL-2治疗显著增加了极化细胞的比例。

4. SCUPA在泛癌浸润性髓系细胞数据集中的分析

SCUPA在泛癌浸润性髓系细胞数据集中揭示了不同癌症类型中髓系细胞的极化状态和促炎反应。例如,淋巴瘤(lymphoma)中的髓系细胞表现出最高的促炎极化分数,而胰腺癌(pancreatic adenocarcinoma)和肾癌(kidney cancer)中的髓系细胞极化分数较低。

结论

SCUPA是首个用于全面评估免疫细胞极化的计算方法,利用单细胞基础模型UCE的细胞嵌入,能够有效捕捉不同极化状态的转录变化。该方法在多个独立数据集中验证了其准确性,并揭示了肿瘤浸润性髓系细胞在不同癌症中的极化特征。SCUPA为免疫细胞极化的研究提供了新的工具,特别是在细胞因子治疗中的应用具有重要潜力。

研究亮点

  1. 首个系统评估免疫细胞极化的计算方法:SCUPA填补了scRNA-seq数据中细胞因子驱动极化评估的空白。
  2. 利用单细胞基础模型UCE:通过使用UCE细胞嵌入,SCUPA能够捕捉不同物种和实验条件下的极化细胞。
  3. 在多个独立数据集中验证:SCUPA在体外和体内实验数据集中均表现出色,能够准确分类极化细胞。
  4. 揭示肿瘤浸润性髓系细胞的极化特征:SCUPA在泛癌浸润性髓系细胞数据集中揭示了不同癌症类型中的极化状态和促炎反应。

其他有价值的信息

SCUPA的代码已公开发布在GitHub上(https://github.com/bsml320/scupa),研究人员可以自由使用和扩展该方法。此外,SCUPA的设计使其能够轻松集成到广泛使用的Seurat管道中,便于进行全面的单细胞数据分析。