原发性硬化性胆管炎中调节性T细胞相关基因的研究:孟德尔随机化和转录组数据的证据

学术背景

原发性硬化性胆管炎(Primary Sclerosing Cholangitis, PSC)是一种慢性、进行性的肝脏疾病,主要由免疫、炎症和遗传因素共同作用导致,最终可能引发肝功能衰竭。PSC的发病率和患病率在全球范围内存在显著差异,发病率从西班牙的0.07例/10万人年到挪威的1.3例/10万人年不等,患病率则从西班牙的0.2例/10万人年到美国的13.6例/10万人年不等。大约70-80%的PSC患者同时患有炎症性肠病,这增加了胆管癌和结直肠癌的风险。PSC的临床表现和病程多样,诊断主要依赖于胆管影像学和肝脏组织病理学。尽管部分患者病程较为缓慢,但PSC的诊断对患者的长期健康有重大影响,中位无移植生存期为13.2年。随着影像技术的进步,磁共振成像(MR)等非侵入性诊断方法逐渐取代了内镜逆行胆管造影(ERCP)和肝活检等侵入性手段,用于安全、准确地识别PSC。然而,目前尚无有效的药物可以治疗PSC,肝移植是唯一有效的治疗手段。因此,迫切需要发现新的生物标志物,以优化PSC的诊断方法、确定个体化风险、发现治疗靶点,并进一步理解其病理生理机制。

PSC的病因有多种理论,但最流行的理论认为它是一种由环境刺激引发的免疫介导疾病,最终导致遗传易感人群的肝细胞损伤和炎症。已有研究表明,免疫细胞浸润与纤维化进展和胆管细胞损伤显著相关。多种免疫细胞,如中性粒细胞和巨噬细胞,在PSC患者的胆管附近被发现。PSC的一个显著特征是T细胞浸润,但这些浸润性T细胞的组成和功能存在差异。例如,研究发现PSC患者的外周血CD4+ T细胞凋亡敏感性降低,而CD8+ T细胞则没有这种现象。此外,PSC患者的CXCR3阳性CD8+ T细胞比例较高,而CD25阳性CD4+ T细胞比例较低。然而,这些观察性研究可能存在反向因果关系和混杂偏倚。因此,需要通过随机对照试验(RCTs)来确定靶向特定免疫细胞是否能够发现新的治疗途径。由于缺乏RCTs,孟德尔随机化(Mendelian Randomization, MR)成为了一种重要的技术,通过利用遗传变异作为工具变量(IVs)来评估暴露与临床结果之间的因果关系。

此外,PSC的研究受到以下因素的限制:胆管细胞难以获取、肝脏中这些细胞数量较少、体外培养技术不稳定、样本通常来自晚期患者。高通量RNA测序数据集的可用性为发现新的生物标志物提供了前所未有的机会。随着生物信息学的发展,机器学习方法已成为选择特征变量和构建预测模型的常规工具。目前,Lasso-Cox是用于生成大规模预测特征的主流算法,但某些建模方法的独特性和不适当性导致了一些模型的显著不足,限制了其在临床中的应用。因此,结合转录组数据和先进机器学习算法发现PSC的新生物标志物的研究仍然有限。

研究目的

本研究旨在通过大规模全基因组关联研究(GWAS)总结数据(731种免疫细胞亚型和三个PSC GWAS数据集)、meta分析以及两个PSC转录组数据,阐明调节性T细胞(Tregs)比例失衡在PSC发生中的关键作用。随后,研究者利用加权基因共表达网络分析(WGCNA)、差异分析和12种机器学习算法的107种组合,构建并验证了一个基于平均曲线下面积(AUC)为0.959的人工智能诊断模型(Tregs分类器)。通过定量实时聚合酶链反应(qRT-PCR)验证,发现与对照组相比,PSC小鼠模型中AKAP10、BASP1、DENND3、PLXNC1和TMCO3显著上调,而KLF13和SCAP的表达水平显著降低。此外,免疫细胞浸润和功能富集分析揭示了Tregs相关基因与M2巨噬细胞、中性粒细胞、巨核细胞-红系祖细胞(MEP)、自然杀伤T细胞(NKT)以及自噬细胞死亡、补体和凝血级联、代谢紊乱、FcγR介导的吞噬作用、线粒体功能障碍等途径的显著关联,可能介导PSC的发生。XGBoost算法和Shapley加性解释(SHAP)确定了AKAP10和KLF13为最佳基因,可能是PSC的重要治疗靶点。

研究方法

数据来源

本研究使用了三个大规模的PSC GWAS数据(GWAS ID: ieu-a-1112, finn-b-k11_cholangi_strict, finn-b-k11_cholangi),这些数据来自IEU OpenGWAS项目。此外,研究者还从基因表达综合数据库(GEO)下载了两个PSC mRNA表达谱数据集(GSE119600和GSE159676)。免疫细胞表型的GWAS总结数据来自GWAS目录(accession numbers gcst90001391 to gcst90002121),包括731种不同的免疫表型,如形态学参数(MP)、相对细胞计数(RC)、绝对细胞计数(AC)和表面抗原水平的荧光强度(MFI)。

孟德尔随机化分析

研究者首先通过MR分析确定了731种免疫细胞与PSC之间的因果关系。在MR分析中,工具变量(IVs)是高度相关于暴露且不受其他因素影响的遗传变异。为了确保MR研究的有效性,IVs需要满足三个基本标准:(1)与暴露显著相关的SNPs(p < 5 × 10^-8或p < 1 × 10^-5)被用作IVs;(2)独立性假设:与暴露和结果相关的显著混杂因素与SNPs(IVs)无关;(3)排他性假设:SNPs(IVs)通过暴露直接影响结果,而不通过其他途径与结果相关。

转录组数据分析

研究者从GEO数据库中系统搜索了PSC相关的转录组数据集,并选择了两个数据集(GSE119600和GSE159676)进行定量和定性分析。通过加权基因共表达网络分析(WGCNA),研究者识别了与Tregs比例显著相关的基因模块。随后,研究者利用差异分析和机器学习算法,构建并验证了一个基于Tregs相关基因的诊断模型。

机器学习模型构建

研究者结合了12种经典的机器学习算法(如SVM、GBM、LDA、XGBoost、NaiveBayes、RF等)及其107种组合,构建了一个共识诊断模型。通过5折交叉验证,研究者最终选择了Lasso+GBM组合作为最佳模型,该模型在两个PSC队列中的平均AUC为0.959。

动物模型验证

研究者使用DDC诱导的PSC小鼠模型,通过qRT-PCR验证了Tregs相关基因的表达水平。结果显示,与对照组相比,PSC小鼠模型中AKAP10、BASP1、DENND3、PLXNC1和TMCO3显著上调,而KLF13和SCAP的表达水平显著降低。

研究结果

孟德尔随机化分析结果

通过MR分析,研究者发现CD39+静息Treg % CD4 Treg细胞、CD3在CD39+分泌Treg细胞上的表达以及BAFF-R在IgD- CD38dim B细胞上的表达与PSC风险显著相关。具体而言,CD39+静息Treg % CD4 Treg细胞的增加显著增加了PSC风险,而CD3在CD39+分泌Treg细胞上的表达则对PSC具有保护作用。

转录组数据分析结果

在GSE119600和GSE159676数据集中,Tregs在PSC组中的比例显著高于对照组。通过WGCNA分析,研究者识别了与Tregs比例显著相关的基因模块,并进一步筛选出了65个Tregs相关基因。通过机器学习算法,研究者最终确定了7个核心Tregs相关基因(AKAP10、BASP1、DENND3、PLXNC1、KLF13、SCAP和TMCO3),并构建了一个基于这些基因的诊断模型(Tregs分类器)。

动物模型验证结果

在PSC小鼠模型中,qRT-PCR验证了7个核心Tregs相关基因的表达水平。结果显示,与对照组相比,PSC小鼠模型中AKAP10、BASP1、DENND3、PLXNC1和TMCO3显著上调,而KLF13和SCAP的表达水平显著降低。

免疫细胞浸润和功能富集分析

通过免疫细胞浸润分析,研究者发现PSC患者中的中性粒细胞和NKT细胞比例显著增加,而M2巨噬细胞和MEP比例显著降低。功能富集分析表明,PSC的发生与免疫和炎症相关途径(如补体和凝血级联、FcγR介导的吞噬作用等)的激活密切相关,而代谢相关途径(如胆汁酸代谢、胆固醇代谢等)和线粒体功能相关途径则显著下调。

研究结论

本研究首次整合了MR和转录组分析,探讨了Tregs与PSC之间的因果关系。通过107种不同的机器学习算法组合,研究者构建并验证了一个基于7个Tregs相关基因的共识诊断模型(Tregs分类器)。此外,研究者还发现了M2巨噬细胞、MEP、代谢紊乱、补体和凝血级联、线粒体功能障碍以及AKAP10和KLF13在PSC中的重要作用,为PSC的治疗提供了新的潜在靶点。

研究亮点

  1. 首次整合MR和转录组分析:本研究首次通过MR和转录组数据,系统探讨了Tregs与PSC之间的因果关系。
  2. 构建了高效的诊断模型:通过107种机器学习算法组合,研究者构建了一个基于Tregs相关基因的高效诊断模型,AUC达到0.959。
  3. 发现了新的治疗靶点:研究者确定了AKAP10和KLF13为PSC的潜在治疗靶点,并揭示了它们在PSC发生中的重要作用。
  4. 揭示了PSC的免疫和代谢机制:通过免疫细胞浸润和功能富集分析,研究者揭示了PSC发生中的免疫和代谢紊乱机制,为未来的治疗提供了新的思路。

研究意义

本研究不仅为PSC的早期诊断提供了新的生物标志物,还通过揭示Tregs相关基因在PSC发生中的关键作用,为开发新的治疗策略提供了理论依据。此外,研究者构建的Tregs分类器在临床应用中具有较高的诊断价值,有望为PSC患者的个体化治疗提供重要参考。