基于APNet的稀疏深度学习模型在COVID-19严重程度驱动因素发现中的应用

学术背景

COVID-19大流行对全球公共卫生系统造成了巨大冲击,尽管目前疫情已有所缓解,但其复杂的免疫病理机制、长期后遗症(如“长新冠”)以及未来可能出现的类似威胁,仍然推动着相关研究的深入。特别是重症COVID-19患者,常伴随“细胞因子风暴”、急性呼吸窘迫综合征(ARDS)、多器官衰竭等严重症状,亟需更精准的预测模型和生物标志物来指导临床决策。

传统的机器学习(ML)和深度学习(DL)模型在高通量组学数据分析中表现出色,但往往缺乏生物可解释性,难以揭示非线性蛋白质动态(如翻译后修饰)和复杂的信号通路调控机制。为了解决这一问题,作者开发了APNet(Activity PASNet),一种结合了差异活性分析和生物信息驱动的稀疏深度学习模型,旨在通过可解释的预测发现COVID-19重症的驱动因素。

论文来源

本论文由George I. Gavriilidis、Vasileios Vasileiou、Stella Dimitsaki等作者共同撰写,作者来自希腊的研究与技术基金会应用生物科学研究所、色雷斯德谟克利特大学分子生物学与遗传学系、雅典大学母幼健康与精准医学研究所等机构。论文于2025年2月8日发表在《Bioinformatics》期刊上,题为“APNet, an explainable sparse deep learning model to discover differentially active drivers of severe COVID-19”。

研究流程

1. APNet框架概述

APNet是一个模块化的计算框架,旨在通过生物信息驱动的深度学习模型进行可解释的患者分类和生物机制假设生成。其主要任务包括: - 监督聚类:区分重症和非重症COVID-19病例。 - 生物机制生成:通过构建蛋白质-通路二分图(bipartite graph)揭示潜在的调控网络和信号通路。

APNet的核心组件包括: - NetBID2和scMINER工具:基于SJARACNe算法逆向工程生成蛋白质/基因调控网络,将表达矩阵转换为活性矩阵。 - PASNet模型:一种生物信息驱动的稀疏神经网络,用于监督聚类和初步的生物可解释性分析。 - SHAP值:用于增强模型的可解释性,识别最具预测性的分子。

2. 数据处理与活性转换

研究使用了三个COVID-19血浆蛋白质组学数据集(MGH、Mayo、Stanford)和两个单细胞RNA测序(scRNA-seq)数据集。通过NetBID2和scMINER工具,将表达矩阵转换为活性矩阵,捕获蛋白质/基因的调控关系。活性转换显著提高了数据的“信噪比”,并减少了批次效应。

3. 差异活性分析与通路富集

在活性转换后,研究计算了重症和非重症病例之间的差异活性蛋白质/基因(DAPs/DAGs),并通过Enrichr知识图谱(KG)进行通路富集分析。结果显示,活性分析能够识别出更多与COVID-19相关的信号通路,如炎症反应、细胞凋亡、病毒感染等。

4. 模型训练与验证

APNet模型在MGH数据集上进行训练,并在Mayo和Stanford数据集上进行验证和测试。模型表现优异,AUC(曲线下面积)和F1分数均显著高于其他基准模型(如随机森林和原始PASNet模型)。

5. 生物机制假设生成

通过构建蛋白质-通路二分图,APNet揭示了与COVID-19重症相关的关键信号通路和调控网络。例如,ACAA1(乙酰辅酶A酰基转移酶1)被识别为重要的预测性驱动因子,其与IL-6、CKAP4等蛋白质的调控关系在COVID-19的免疫病理机制中具有重要意义。

主要结果

  1. 数据分布对齐与批次效应减少:活性转换显著改善了不同数据集之间的数据分布对齐,减少了批次效应。
  2. 差异活性驱动因子的识别:活性分析识别出333个共同差异活性蛋白质(DAPs),显著多于传统表达分析的结果。
  3. 模型性能优越:APNet在预测COVID-19重症病例中表现出色,AUC和F1分数均显著高于其他基准模型。
  4. 生物机制假设生成:APNet揭示了多个与COVID-19重症相关的信号通路和调控网络,如炎症反应、细胞凋亡、病毒感染等。

结论与意义

APNet作为一种可解释的深度学习框架,不仅能够高效预测COVID-19重症病例,还能通过生物机制假设生成揭示潜在的信号通路和调控网络。其创新性在于结合了活性分析和生物信息驱动的深度学习模型,显著提高了模型的生物可解释性和预测性能。未来,APNet可应用于其他复杂疾病(如癌症、神经退行性疾病)的多组学数据分析,为精准医学提供新的工具和思路。

研究亮点

  1. 创新性方法:APNet首次将活性分析与生物信息驱动的深度学习模型结合,解决了传统模型在生物可解释性方面的不足。
  2. 高效预测性能:APNet在多个COVID-19数据集上表现出色,显著优于其他基准模型。
  3. 生物机制揭示:通过构建蛋白质-通路二分图,APNet揭示了与COVID-19重症相关的关键信号通路和调控网络,为临床决策提供了重要依据。

其他有价值的信息

APNet的R和Python脚本已开源,可在GitHub上获取(https://github.com/biodataanalysisgroup/apnet),为其他研究者提供了便捷的工具和参考。此外,研究使用的数据集也公开在Zenodo平台上,便于复现和进一步研究。

通过APNet,研究者不仅能够更好地理解COVID-19的免疫病理机制,还能为未来类似疫情的防控提供新的思路和方法。