基于信息熵增强BERT和多向GRU的S-硫化位点预测方法

背景介绍

蛋白质翻译后修饰(Post-Translational Modifications, PTMs)是调节细胞活动的关键机制,包括基因转录、DNA修复和蛋白质相互作用等。其中,半胱氨酸(Cysteine)作为稀有氨基酸,通过其硫醇基团(Thiol Group)参与多种PTMs,尤其是在氧化还原平衡和信号传递过程中发挥着重要作用。S-硫酰化(S-Sulfhydration)是一种重要的PTM,与心血管疾病和神经系统疾病的发生和发展密切相关。然而,S-硫酰化的具体机制仍不明确,尤其是在位点识别方面存在较大的挑战。

传统的S-硫酰化位点识别方法,如生物素转换法(Biotin Conversion Method)和马来酰亚胺荧光法(Maleimide Fluorescence Method),虽然能够精确识别位点,但往往依赖于化学试剂,且存在特异性不足和灵敏度低的问题。近年来,随着深度学习技术的快速发展,研究者们开始利用这些技术来预测蛋白质修饰位点。然而,现有的方法在S-硫酰化位点预测方面的研究相对较少,且现有的模型如PCysMod在性能上仍无法满足实际应用的需求。

为了解决这些问题,来自大连海事大学、江南大学等机构的研究团队提出了一种新的深度学习框架——Sul-BERTGRU,旨在通过集成多向门控循环单元(GRU)和信息熵增强的BERT(IE-BERT)来提高S-硫酰化位点预测的准确性和效率。

论文来源

该研究由Xirun Wei、Qiao Ning、Kuiyang Che、Zhaowei Liu、Hui Li和Shikai Guo等人共同完成,分别来自大连海事大学信息科学与技术学院、江南大学人工智能与计算机科学学院、吉林大学符号计算与知识工程教育部重点实验室等机构。论文于2025年2月20日发表在《Bioinformatics》期刊上,题为《Sul-BERTGRU: An Ensemble Deep Learning Method Integrating Information Entropy-Enhanced BERT and Directional Multi-GRU for S-Sulfhydration Sites Prediction》。

研究内容

研究流程

Sul-BERTGRU框架由四个模块组成:数据处理模块、IE-BERT模块、置信学习模块和方向特征提取模块。

  1. 数据处理模块:首先,蛋白质序列以半胱氨酸为中心,划分为左右两个子序列。每个位点以31个氨基酸的窗口(-15C+15)为中心,生成正样本(含有S-硫酰化位点)和负样本(不含有S-硫酰化位点)。数据集包含2705个正样本和16697个负样本,其中20%的数据用于独立测试集,80%用于训练和验证集。

  2. IE-BERT模块:该模块使用信息熵增强的BERT(IE-BERT)来预处理蛋白质序列并提取初始特征。BERT模型通过12层Transformer编码器处理蛋白质序列,每层的输出通过信息熵加权聚合,以增强特征的表达能力。

  3. 置信学习模块:由于生物实验的局限性,负样本中可能存在误标记的S-硫酰化位点。为了减少这些噪声数据对模型训练的影响,研究者使用置信学习(Confident Learning)方法去除负样本中的潜在误标记样本,确保负样本的可靠性。

  4. 方向特征提取模块:该模块使用多向GRU模型来提取蛋白质序列的方向特征。考虑到酶促反应的方向性,蛋白质序列被划分为左、右和全序列,分别通过GRU模型进行处理。随后,使用多头自注意力机制(Multi-Head Self-Attention)和卷积神经网络(CNN)来进一步分析序列特征,捕捉可能被忽略的局部细节。

主要结果

Sul-BERTGRU在多项指标上表现出色,敏感性(Sensitivity)为85.82%,特异性(Specificity)为68.24%,精确度(Precision)为74.80%,准确度(Accuracy)为77.44%,马修斯相关系数(Matthews Correlation Coefficient, MCC)为55.13%,曲线下面积(Area Under Curve, AUC)为77.03%。与现有的PCysMod模型相比,Sul-BERTGRU在大多数指标上均表现出更高的性能,尤其是在敏感性方面显著提升。

结论与意义

Sul-BERTGRU的提出为S-硫酰化位点的预测提供了一种新的深度学习框架,显著提高了预测的准确性和效率。该框架的创新之处在于引入了信息熵增强的BERT和多向GRU,能够更好地捕捉蛋白质序列的方向特征和局部细节。此外,置信学习模块的应用有效减少了负样本中的噪声数据,进一步提升了模型的性能。

该研究不仅在科学上有重要价值,还为理解S-硫酰化在心血管疾病和神经系统疾病中的作用提供了新的工具。未来,研究者计划引入更多的结构信息,以进一步提升特征提取和预测的准确性。

研究亮点
  1. 信息熵增强的BERT:通过信息熵加权聚合BERT的12层编码器输出,显著提升了特征提取的效率和准确性。
  2. 多向GRU算法:引入多向GRU模型,能够更好地捕捉S-硫酰化修饰的方向特征。
  3. 置信学习模块:通过置信学习方法去除负样本中的噪声数据,提高了模型的泛化能力。
  4. 多模块集成框架:Sul-BERTGRU框架集成了多个深度学习模块,显著优于现有的S-硫酰化位点预测方法。

其他有价值的信息

该研究的源代码和数据已公开在GitHub上(https://github.com/severus0902/sul-bertgru/),供学术界和工业界进一步研究和应用。此外,研究者还对S-硫酰化蛋白质进行了基因本体(Gene Ontology, GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)分析,发现S-硫酰化与多种疾病(如帕金森病、阿尔茨海默病等)密切相关,这为未来的疾病研究提供了新的方向。

通过这项研究,我们不仅加深了对S-硫酰化机制的理解,还为蛋白质修饰位点的预测提供了新的技术手段,具有广泛的应用前景。