SP-DTI:基于亚口袋信息的Transformer模型用于药物-靶点相互作用预测

学术背景

药物-靶点相互作用(Drug-Target Interaction, DTI)预测是药物发现中的关键环节,能够显著降低实验筛选的成本和时间。然而,尽管深度学习技术已经提升了DTI预测的准确性,现有方法仍面临两大挑战:泛化能力不足亚口袋级相互作用的忽视。首先,现有模型在未见过的蛋白质和跨域设置下性能显著下降;其次,当前的分子关系学习往往忽略了亚口袋级别的相互作用,而这些相互作用对于理解结合位点的细节至关重要。为了解决这些问题,研究人员提出了一种名为SP-DTI的新型模型,通过引入亚口袋分析和预训练语言模型,提升了DTI预测的准确性和泛化能力。

论文来源

这篇论文由Sizhe LiuYuchen LiuHaofeng XuJun XiaStan Z. Li共同撰写。他们分别来自University of Southern California的计算机科学系和定量与计算生物学系,以及Westlake University的工程学院。论文于2025年发表在Bioinformatics期刊上,题为《SP-DTI: Subpocket-Informed Transformer for Drug–Target Interaction Prediction》。

研究流程

1. 问题定义

DTI预测被定义为一个二分类任务,目标是预测药物与靶点蛋白质之间是否存在相互作用。药物由其SMILES(简化分子线性输入系统)表示,而靶点蛋白质则由氨基酸序列表示。任务的核心是学习一个函数,将药物-靶点对映射到一个二元交互分数,其中0表示无相互作用,1表示存在相互作用。

2. 模型设计

SP-DTI模型由三个主要模块组成:

a) 亚口袋建模模块(Subpocket Modeling Module, SMM)

该模块旨在捕捉药物与蛋白质在原子级别上的复杂相互作用。通过使用AlphaFold2生成蛋白质的三维结构,并利用CAVIAR算法识别潜在的结合口袋,进一步将其分解为亚口袋。每个亚口袋被赋予一个分数,表示其作为配体结合位点的可能性。随后,为每个亚口袋生成独立的图,并使用图卷积网络(GCN)进行处理,最终生成一个详细的亚口袋特征嵌入。

b) 序列-图融合模块(Seq-Graph Fusion Module, SGFM)

该模块通过结合预训练的语言模型和图神经网络(GNN)来增强编码能力。蛋白质和药物的序列分别通过ESM-2ChemBERTa语言模型生成嵌入,这些嵌入被作为节点特征输入到GNN中。最终的输出是一个统一的蛋白质和药物表示。

c) 交互模块(Interaction Module)

该模块通过Transformer模型捕捉药物、蛋白质和亚口袋之间的相互作用。首先,将药物、蛋白质和亚口袋的嵌入合并为一个矩阵,并引入位置编码以捕捉亚口袋与口袋之间的关系。随后,通过多头注意力机制更新嵌入,最终通过多层感知机(MLP)预测相互作用的概率。

3. 实验与结果

a) 数据集与评估指标

研究使用了BiosnapDavis两个数据集,分别包含4510种药物、2181个蛋白质和68种药物、379个蛋白质。评估指标包括ROC-AUC(受试者工作特征曲线下面积)和PR-AUC(精确率-召回率曲线下面积)。

b) 随机分割测试

在随机分割设置下,SP-DTI在Biosnap和Davis数据集上均表现出色,ROC-AUC分别为0.931和0.934,显著优于所有基线模型。

c) 未见药物/蛋白质分割测试

在未见药物和未见蛋白质设置下,SP-DTI依然保持了较高的性能,尤其是在未见蛋白质设置下,ROC-AUC达到了0.873,仅下降了6%,而其他基线模型的性能下降了12%以上。

d) 跨域分割测试

在跨域测试中,SP-DTI的ROC-AUC为0.773,进一步证明了其在跨域设置下的强大泛化能力。

e) 模型解释性

通过注意力机制,SP-DTI能够预测哪些蛋白质结合位点最可能与给定配体结合。研究以HIV蛋白酶D545701与GW0385的结合为例,展示了模型如何准确识别实验验证的结合位点。

4. 消融实验

消融实验表明,预训练语言模型对模型性能的影响最大,其次是亚口袋编码器、交互模块和融合模块。移除任何一部分都会导致性能下降,进一步验证了各模块的重要性。

结论与意义

SP-DTI模型通过引入亚口袋信息和序列-图融合模块,显著提升了DTI预测的准确性和泛化能力。研究结果表明,SP-DTI在随机分割、未见药物/蛋白质分割和跨域设置下均优于现有的最先进模型。此外,模型的解释性为药物发现提供了重要见解,能够帮助科学家理解预测的相互作用机制,从而加速药物研发过程。

研究亮点

  1. 亚口袋级建模:首次在DTI预测中引入亚口袋信息,提供了更精细的结合位点分析。
  2. 序列-图融合:首次将预训练语言模型与图神经网络结合,增强了模型的泛化能力。
  3. 跨域性能:在跨域设置下表现出色,展示了模型在实际应用中的潜力。
  4. 模型解释性:通过注意力机制提供结合位点的可视化,提升了模型的可解释性。

代码与数据可用性

SP-DTI的代码已开源,可在GitHub上获取:https://github.com/steven51516/sp-dti。数据集的分割信息可从MolTrans和DrugBan的GitHub仓库获取。

致谢

作者感谢匿名审稿人的宝贵建议。

作者贡献

Sizhe Liu和Yuchen Liu为共同第一作者,负责概念化、方法设计、软件开发和论文撰写。Haofeng Xu参与了软件开发和论文审阅。Jun Xia负责监督和验证。Stan Z. Li负责项目管理和资金支持。

资金支持

本研究得到了中国国家自然科学基金、西湖大学合成生物学与集成生物工程中心以及西湖大学未来产业研究基金的支持。