基于分层负采样图对比学习的药物-疾病关联预测方法

基于分层负采样的图对比学习用于药物-疾病关联预测的研究

针对药物-疾病关联(RDAs)的预测在揭示疾病治疗策略和促进药物重新定位方面起着至关重要的作用。然而,现有的方法在预测药物和疾病之间的候选关联时,主要依赖于有限的领域特定知识,因而效果受限。此外,将药物-疾病关系的未知信息简单地定义为负样本存在固有不足。为克服这些挑战,本文提出了一种新的基于分层负采样的图对比模型,称为HSGCL-RDA,该模型旨在预测药物和疾病之间的潜在关联。

研究背景与研究问题

药物开发与疾病进展控制过程漫长且昂贵,而随着疾病数量及其变异的不断增加,对有效药物的需求也在增长。全球性疾病爆发(如新冠肺炎)对现有药物的治疗提出了极大挑战,迫切需要快速开发新的治疗药物。研究现有药物的新用途涉及许多挑战。现有的算法模型虽然在一定程度上减少了药物开发的成本和时间,但它们也存在如下局限:

  1. 相似性测度不足: 许多模型未能充分考虑不同对象之间的多维特征,从而在计算过程中避免了噪音和信息丢失。
  2. 负样本选择问题: 大多数模型基于已知关联的正样本信息,未考虑未知样本特性的稀疏关联网络。简单地将其定义为负样本不足以预测潜在的药物-疾病关联,而选择更可靠的负样本是这些方法取得满意预测结果的关键。
  3. 对比学习的应用不足: 对比学习在许多图表示学习中显示了显著效果,但迄今为止尚未应用于潜在药物-疾病关联的预测。

研究论文来源

本文由Yuanxu Wang, Jinmiao Song, Qiguo Dai, 和Xiaodong Duan撰写,作者分别来自新疆大学和大连民族大学。研究论文于2024年5月刊登在IEEE Journal of Biomedical and Health Informatics期刊上。

研究流程

构建异构网络

  1. 不同生物分子的相似性网络构建: 计算不同类型药物、疾病和蛋白质的相似信息,并通过正则化矩阵分解融合提取有效特征信息。本文首先使用高斯交互剖面核相似性(GIP)法,这在近年已被广泛用于不同生物分子的相似性计算。为增强特征表达能力,还选择了疾病语义相似性、蛋白质序列相似性及药物杰卡德相似性计算方法。

  2. 相似矩阵融合: 通过多种相似性计算方法得到不同生物分子的相似信息,并通过特征融合方法构建设备完整特性网络。使用正则化矩阵分解获得低维向量表示,以便有效地捕获节点特征信息。

  3. 分层负采样策略: 基于相似网络的分层采样算法,首先使用PageRank算法对药物、疾病和蛋白质生物分子的相似性网络进行评分并排序,提取高度关联的生物信息。然后通过关联信息从疾病分子中获取蛋白质信息,并依据蛋白质药物的关联网络执行数据筛选,最终获取可靠的负样本数据集。

图对比模块

  1. 元路径域内信息聚合模块: 使用图注意网络层次学习元路径中的节点交互信息的重要性,获取节点嵌入信息。通过学习注意力权重捕获基于不同元路径的药物和疾病节点表示。

  2. 元路径域间信息聚合模块: 由于不同元路径具有不同的特征表示,进一步聚合这些元路径中的语义特征信息,增强特征的有效性,并为不同的元路径分配不同权重。

  3. 双通道网络特征图对比模块: 考虑药物和疾病之间存在更深层次的特征信息,使用GCN和SoGCN分别构建全局特征图和局部特征图,充分学习其内部表示信息。采用自监督图对比学习方法,将正负样本基于全局和局部特征图定义,用于计算对比损失。

模型优化与实验

优化部分利用多层感知器(MLP)更新获得的节点表示信息,并用logsoftmax函数进行归一化。实验部分采用5折交叉验证方法,并通过AUC、AUPR、精度、召回率、F1分数等多种评估指标对模型性能进行全面评价。此外,针对超参数、负样本选择及GCN和SoGCN层设置进行了多种对比实验与优越性分析。

主要研究结果

HSGCL-RDA在多个基准数据集上的实验结果表明,本文方法在预测药物-疾病关联方面性能优于现有方法。特别是,通过在判定初步正、负样本的特征网络上优化对比联合成本函数以及采用分层负采样策略,有效地提高了模型在非欧几里得空间编码中捕获图结构信息的能力。

研究意义与价值

HSGCL-RDA不仅在药物-疾病关联预测中展示了卓越的性能,还有助于发现现有药物潜在的疾病治疗效果,具有重要应用价值。本文方法提供了一种有效的手段来解决药物-疾病关联预测中的核心问题,其创新性体现在对负样本选择方法的改进以及在异构网络上的对比学习应用。

突出亮点

  1. 分层负采样策略:通过分层负采样方式选择更可靠的负样本,提高了模型在稀疏关联网络中的预测效果。
  2. 元路径域内与域间信息聚合:有效捕获了异构网络下的多维节点信息,增强了特征表达能力。
  3. 双通道网络特征图对比:通过全局特征图和局部特征图深入挖掘药物和疾病间的深层次关联,提升模型的预测性能。
  4. 验证与评估:在不同数据集、超参数范围及负样本选择策略下,通过一系列实验证明了HSGCL-RDA的广泛适用性和有效性。

结论

本文提出了一种基于分层负采样的图对比学习方法(HSGCL-RDA),通过优化负样本选择策略及图对比结构,有效增强了药物-疾病关联的预测性能。对于未来的实验室实验,本文研究为确定实际药物-疾病关联提供了可靠的预测基础。