基于共享单元和多通道注意力机制的circRNA与疾病关联预测

背景介绍

近年来,环状RNA(circRNA)作为一种新型的非编码RNA分子,在疾病的发生、发展和治疗中扮演着重要角色。circRNA具有独特的环状结构,不易被核酸酶降解,因此被认为是潜在的生物标志物和治疗靶点。然而,通过实验方法研究circRNA与疾病的关联不仅耗时且成本高昂,这限制了相关研究的进展。为了解决这一问题,研究人员开始开发计算模型,通过生物信息学方法预测circRNA与疾病的关联,从而为实验研究提供指导。

尽管多视图学习方法在预测circRNA与疾病关联方面得到了广泛应用,但现有方法往往未能充分利用不同视图之间的潜在信息,且忽略了不同视图对预测结果的重要性差异。因此,哈尔滨工业大学和电子科技大学的团队提出了一种结合共享单元和多通道注意力机制的新方法,名为MSMCDA(Multi-view Shared Units and Multi-channel Attention Mechanisms for circRNA-Disease Association Prediction),旨在更高效地预测circRNA与疾病的关联。

论文来源

该研究由哈尔滨工业大学计算机科学与技术学院的Xue Zhang和Chunyu Wang,以及电子科技大学基础与前沿科学研究院的Quan Zou和Mengting Niu共同完成。论文于2025年发表在《Bioinformatics》期刊上,题为“Predicting circRNA–disease associations with shared units and multi-channel attention mechanisms”。论文的源代码和数据已在GitHub上公开,供其他研究人员使用和改进。

研究流程与结果

1. 数据集构建

研究使用了五个公开的circRNA-疾病关联数据集:circR2Disease、circR2Diseasev2.0、circRNADisease、circ2Disease和circRDS。这些数据集包含了从数百到数千不等的已验证的circRNA-疾病关联。为了构建相似性网络,研究采用了语义相似性和高斯相互作用谱(GIP)相似性来衡量疾病之间的关联,同时使用功能相似性和GIP相似性来衡量circRNA之间的关联。此外,研究还构建了元路径网络,以捕捉circRNA和疾病之间的结构信息。

2. 特征提取与共享单元设计

研究利用图卷积网络(GCN)从相似性网络和元路径网络中提取特征。为了增强不同视图之间的信息交互,研究设计了一种共享单元,通过线性操作模块促进相似性视图和元路径视图之间的特征融合。共享单元的引入使得模型能够更有效地捕捉跨视图的潜在信息,从而提高了预测的准确性。

3. 多通道注意力机制

为了调整不同相似性视图对预测结果的贡献,研究引入了多通道注意力机制。该机制通过全局平均池化和全连接层计算每个视图的重要性系数,并使用卷积神经网络整合多个相似性视图的特征。实验结果表明,注意力机制能够显著提升模型的性能。

4. 对比学习

研究还采用了对比学习策略,通过最大化正样本之间的相似性和最小化负样本之间的相似性来增强特征表示。对比学习的引入进一步提高了模型在捕捉circRNA与疾病关联方面的能力。

5. 模型训练与评估

研究使用Adam优化器对模型进行训练,并通过五折交叉验证评估模型的性能。实验结果表明,MSMCDA在五个数据集上的AUC(曲线下面积)和AUPR(精确率-召回率曲线下面积)均显著优于其他基线方法。例如,在circR2Disease数据集上,MSMCDA的AUC达到了0.976,比第二好的方法高出0.022。

6. 案例研究

为了验证模型在实际应用中的有效性,研究对结直肠癌、胃癌和非小细胞肺癌进行了案例研究。通过移除已知的circRNA-疾病关联并重新训练模型,研究成功预测了多个新的关联,并通过文献检索验证了这些预测的准确性。例如,研究预测的circ-ZNF609与结直肠癌的关联已被实验证实,表明MSMCDA在发现新的circRNA-疾病关联方面具有重要价值。

结论与意义

MSMCDA通过引入共享单元和多通道注意力机制,成功解决了现有方法在利用多视图信息和调整视图重要性方面的不足。实验结果表明,该方法在预测circRNA与疾病关联方面具有显著优势,能够为疾病诊断和治疗提供新的生物标志物和靶点。此外,MSMCDA的开源实现为其他研究人员提供了宝贵的工具,有助于推动circRNA相关研究的进一步发展。

研究亮点

  1. 共享单元的设计:通过促进相似性视图和元路径视图之间的信息交互,显著提高了模型的预测能力。
  2. 多通道注意力机制:能够自适应地调整不同视图的重要性,从而优化特征整合过程。
  3. 对比学习的应用:通过增强特征表示,进一步提升了模型的性能。
  4. 广泛的数据集验证:在五个公开数据集上的实验证明了MSMCDA的鲁棒性和泛化能力。
  5. 实际应用价值:案例研究验证了模型在发现新的circRNA-疾病关联方面的实用性。

未来展望

尽管MSMCDA取得了显著成果,但研究团队也指出了其局限性。例如,当前使用的元路径数量有限,未来可以引入更多元路径以捕捉更全面的信息。此外,整合更多类型的生物数据(如基因表达数据和蛋白质相互作用数据)也有助于进一步提高模型的预测性能。研究团队计划在未来的工作中探索这些方向,以进一步提升MSMCDA的应用价值。