从生物网络中学习蛋白质知识预测药物靶标亲和力

##基于生物网络学习蛋白质知识来预测药物-靶点亲和力

背景介绍

药物-靶点亲和力(drug-target affinity, DTA)预测在药物发现环节中占据重要地位。高效且准确的DTA预测可以显著缩短新药开发的时间和经济成本。近年来,深度学习技术的爆炸性发展为DTA预测提供了强大的支持。现有的DTA预测方法主要分为基于1D蛋白质序列和基于2D蛋白质结构图的方法。然而,这些方法仅关注靶蛋白的内在特性,忽略了过往研究中明确揭示的蛋白质交互的广泛先验知识。

针对上述问题,本文提出了一种名为MSF-DTA(基于多源特征融合的药物-靶点亲和力)的端到端DTA预测方法。MSF-DTA通过利用邻接蛋白的信息,增强蛋白质的表示,并使用高级图预训练框架VG-AE(变分图自动编码器)来学习这些表示,使得预测结果更加准确和高效。

来源介绍

该研究由Wenjian Ma、Shugang Zhang、Zhen Li、Mingjian Jiang、Shuang Wang、Nianfan Guo、Yuanfei Li、Xiangpeng Bi、Huasen Jiang和Zhiqiang Wei编写,作者分别来自中国海洋大学青岛校区、青岛大学、中国石油大学(华东)等多个知名机构,论文于2023年4月刊登在IEEE Journal of Biomedical and Health Informatics上。

研究详细介绍

工作流程

  1. 数据收集与网络构建

收集了18,552个来源于SwissProt数据库的人类蛋白质,然后基于已知的蛋白质交互关系构建了蛋白质-蛋白质交互网络(PPI)和序列相似性网络(SSN)。

  1. 蛋白质特征表示

包括序列编码、亚细胞位置和蛋白质结构域等特征,通过这三类特征对蛋白质进行预处理,最终形成2,045维的特征向量。

  1. 变分图自动编码器(VG-AE)

使用VG-AE框架对PPI和SSN网络中的蛋白质特征进行多源特征融合。通过图卷积网络(GCN)编码器,将高维特征表示压缩成低维的潜在表示μ,然后使用内积解码器重构输入图数据。

  1. DTA预测

使用低维的潜在表示进行DTA预测。具体办法是,将蛋白质特征和通过3层GCN提取的药物特征进行融合,最终通过多个全连接层输出DTA结果。

主结果

  1. 模型性能

MSF-DTA在两个广泛使用的DTA预测基准数据集Davis和KIBA上均获得了优异的表现。在Davis数据集上的MSE为0.194,CI为0.906;在KIBA数据集上的MSE为0.124,CI为0.897。实验结果表明,MSF-DTA显著优于现有的最先进DTA预测方法。

  1. 蛋白质邻居特征的有效性

通过引入PPI和SSN网络中的邻居蛋白信息,MSF-DTA能够有效地增强蛋白质表示,提升模型的预测性能。

  1. 广泛适用性

该方法还在化合物-蛋白质相互作用(CPI)预测任务中表现出色,证明了其在不同任务中的泛化能力。

结论与意义

该研究提出的MSF-DTA方法通过融合蛋白质的多源特征,显著提高了DTA预测的准确性和效率,提供了一个精准且高效的工具。该方法不仅展示了高层次蛋白质特征作为蛋白质表示的一种新途径的有效性,也证明了利用PPI和SSN网络中邻居蛋白特征预测药物-蛋白质相互作用或亲和力的可行性。

研究亮点

  1. 引入多源特征

MSF-DTA结合了蛋白质的内在属性和PPI及SSN网络中的生物先验知识,为DTA预测任务提供了新的视角。

  1. 高级图预训练框架VG-AE的应用

利用VG-AE框架,模型能够更好地捕捉蛋白质之间的拓扑连接,从而增强蛋白质表示的丰富性。

  1. 优异的实验结果

无论是在DTA预测任务还是CPI预测任务中,MSF-DTA的表现均超过了现有的最先进方法。

结论

本文提出了一种新的基于多源特征融合的药物-靶点亲和力预测方法MSF-DTA,通过利用蛋白质-蛋白质交互和序列相似性网络中的邻居蛋白信息,显著提高了DTA预测的准确性和效率。该研究不仅展示了高层次蛋白质特征作为蛋白质表示的一种新途径的有效性,也证明了利用PPI和SSN网络中邻居蛋白特征的可行性,为药物发现和高效DTA预测提供了一种新的解决方案。