结合多重先验知识的图神经网络用于多组学数据分析

医学多组学数据分析中的多重先验知识图神经网络

背景介绍

精确医学是未来医疗保健的重要领域,因为它为患者提供个性化的治疗方案,从而改善治疗效果并降低成本。例如,由于乳腺癌患者存在复杂的临床、病理和分子特征,相同的治疗可能表现出不同的效果。随着生物医学技术的高速发展,疾病的表征可以通过多组学数据来实现。多组学方法相较单组学方法能够在多个数据间捕捉一致和互补的信息,从而建立更加准确和深入的模型。例如,癌症基因组图谱(The Cancer Genome Atlas, TCGA)提供了包括mRNA表达、DNA甲基化和拷贝数变异(Copy Number Variation, CNV)在内的多组学数据。因此,在精确医学的各类任务中引入多组学数据变得必要,这些任务包括药物反应预测、基因发现和生存分析等。 多组学分析框架示意图

作者与来源

本文由Shunxin Xiao、Huibin Lin、Conghao Wang和Shiping Wang(会员,IEEE)以及Jagath C. Rajapakse(会士,IEEE)共同撰写。Shunxin Xiao来自南洋理工大学计算机科学与工程学院和福州大学计算机与数据科学学院。Huibin Lin和Shiping Wang来自福州大学计算机与数据科学学院。Conghao Wang和Jagath C. Rajapakse同样来自南洋理工大学计算机科学与工程学院。该论文发表于2023年9月的IEEE Journal of Biomedical and Health Informatics。

研究内容

研究流程

本文提出了一种基于图神经网络(Graph Neural Networks,GNN)的多组学数据分析框架,通过结合多重先验知识来优化多组学学习。该方法包括四个主要模块:

  1. 特征级学习模块:通过先验图聚合输入特征信息,生成特征级嵌入。
  2. 投影模块:通过优化对比损失,最大化各先验网络间的一致性。
  3. 样本级学习模块:通过多层感知器(Multilayer Perceptron, MLP)学习全局表示。
  4. 任务特定模块:灵活扩展框架以适应不同的下游多组学分析任务。

实验部分验证了该框架在癌症分子亚型分类任务上的有效性。

主要结果

在癌症分子亚型分类任务中,实验结果表明,MPK-GNN在多个数据集上均优于其他状态的艺术算法,包括多视图学习方法和多组学整合方法。具体来说:

  • 特征级学习模块:利用图卷积网络(Graph Convolutional Network, GCN)从输入多组学特征中学习特征级表示。实验使用的图包括基因-基因相互作用(GGI)网络、蛋白质-蛋白质相互作用(PPI)网络和共表达(Coexp)网络。
  • 投影模块:通过浅层神经网络重构每个先验知识的表示,并最大化它们之间的一致性。
  • 样本级学习模块:通过多层感知器学习每个输入样本的全局表示。
  • 任务特定模块:将特征级嵌入和样本级表示连接后输入到任务特定模块中,用于解决诸如癌症分子亚型分类任务。

结论及意义

该研究提出了一种可扩展的端到端深度学习框架(MPK-GNN),首次将对比学习框架引入多组学数据分析,并能同时利用多个先验知识图。实验结果表明,MPK-GNN在癌症分子亚型分类任务中表现出显著提升。该方法不仅有助于提高计算模型的鲁棒性和性能,特别是在监督样本少的情况下,还有助于拓展多组学数据分析任务。未来的工作包括优化样本级模块以更好地捕获输入特征信息,并在更多的多组学数据分析任务中验证MPK-GNN的优越性。

方法亮点

  1. 创新应用:首次在多组学数据分析中同时引入多个先验图。
  2. 对比学习框架:通过共享的对比学习架构,利用多个先验知识图优化学习效果。
  3. 优越性能:在多个基准数据集上均实现了竞争性的结果,展现出很好的鲁棒性。

其他信息

  • 数据集:使用了TCGA泛癌数据集和乳腺癌数据集BRCA。
  • 对比模型:包括传统机器学习方法(如SVM, RF, KNN)和最新的深度学习模型(如DeepMO, MOGONET, CMSC)。
  • 实验设置:进行了超参数调优和多次实验,以确保结果的稳定性和可靠性。

通过上述多方面的验证和分析,本文提出的MPK-GNN框架展示了其在多组学数据分析中的巨大潜力,有望为精确医学的研究和应用提供新的视角和方法。