MMNC——一种多模态可解释的非编码RNA分类方法

非编码RNA(ncRNA)在细胞过程和疾病发展中扮演着关键角色。尽管基因组测序项目揭示了大量非编码基因的存在,但ncRNA的功能和分类仍然是一个复杂且具有挑战性的问题。ncRNA的多样性、复杂性和功能性使其成为生物医学研究的重要对象,尤其是在生物标志物和治疗靶点的发现中。然而,现有的ncRNA分类工具大多仅依赖于单一或两种数据类型(如序列或二级结构),忽略了其他可能提供重要信息的数据源。此外,现有方法通常缺乏可解释性,难以揭示不同ncRNA类别的特征。

为了解决这些问题,来自Université Paris-Saclay和Institut Curie的研究团队提出了一种名为MMNC(Multi-Modal Interpretable Representation for Non-Coding RNA Classification and Class Annotation)的多模态深度学习模型。该模型通过整合序列、二级结构和表达数据,实现了对ncRNA的高效分类,并提供了可解释的注意力机制,揭示了不同模态在分类中的重要性。

论文来源

该论文由Constance Creux、Farida Zehraoui、François Radvanyi和Fariza Tahi共同撰写,分别来自Université Paris-Saclay和Institut Curie。论文于2025年1月31日发表在《Bioinformatics》期刊上,标题为“MMNC: Multi-Modal Interpretable Representation for Non-Coding RNA Classification and Class Annotation”。

研究流程与细节

1. 研究目标与方法概述

MMNC的核心目标是开发一种多模态深度学习模型,能够整合序列、二级结构和表达数据,对ncRNA进行分类,并提供可解释的注意力机制。该模型采用中间融合策略,通过注意力机制量化不同模态对分类的贡献,并能够处理缺失数据。

2. 模态编码

MMNC模型首先对每个模态进行独立编码,以提取有意义的信息: - 序列编码:采用卷积神经网络(CNN)或Transformer模型对ncRNA序列进行编码。CNN模型包括多个卷积块,每个块由卷积层、Leaky ReLU激活函数、批量归一化、最大池化和Dropout组成。Transformer模型则基于预训练的DNABERT模型,通过迁移学习提取序列特征。 - 二级结构编码:将RNA二级结构表示为图(graph),并使用图神经网络(GNN)进行编码。GNN模型包括多个图卷积块,每个块由图卷积层、Leaky ReLU激活函数、批量归一化和Dropout组成。 - 表达编码:采用多层感知机(MLP)对表达数据进行编码。MLP模型包括多个全连接层,每个层由ReLU激活函数、批量归一化和Dropout组成。

3. 注意力机制与模态融合

在模态编码后,MMNC通过注意力机制进行模态融合。具体步骤如下: - 模态投影:将每个模态的表示投影到同一维度的特征空间。 - 注意力计算:通过交叉注意力机制计算模态之间的交互矩阵,并生成注意力系数,量化每个模态的重要性。 - 缺失数据处理:通过掩码机制忽略缺失模态的注意力系数,确保模型能够利用所有可用数据。

4. 分类任务

融合后的模态表示用于分类任务。MMNC采用多层全连接网络进行最终分类,并使用交叉熵损失函数进行训练。

主要结果

1. 模态编码器的比较

研究团队比较了不同模态编码器的性能: - 序列编码:CNN2模型在三个数据集上均表现出最佳性能,准确率分别为0.951、0.980和0.966。 - 二级结构编码:基于SAGE卷积的GNN模型在三个数据集上表现最佳,准确率分别为0.797、0.831和0.944。 - 表达编码:MLP1模型在数据集D3上表现最佳,准确率为0.790。

2. 模态贡献的消融研究

通过消融研究,研究团队发现: - 单模态性能:序列模态的分类性能最高,其次是二级结构和表达模态。 - 多模态性能:多模态组合显著提高了分类性能。例如,在数据集D3上,三模态组合的准确率达到0.982,显著高于单模态或双模态组合。

3. 注意力机制的解释性

注意力机制提供了对分类结果的解释。例如,在数据集D3上: - lncRNA:表达模态是分类的主要贡献者,反映了lncRNA的组织特异性表达模式。 - miRNA:序列模态是分类的主要贡献者,反映了miRNA前体的特定序列模式。 - snoRNA:序列和表达模态均对分类有重要贡献,反映了snoRNA家族的保守序列和表达特征。

4. 与现有方法的比较

MMNC在三个数据集上均优于现有的ncRNA分类工具。例如,在数据集D1上,MMNC的准确率为0.953,显著高于其他工具(如ncRNA-Deep的0.914和RNagcn的0.851)。

结论与意义

MMNC提出了一种新颖的多模态深度学习框架,能够高效分类ncRNA,并提供了可解释的注意力机制,揭示了不同模态在分类中的重要性。该模型具有以下科学和应用价值: - 科学价值:通过整合多模态数据,MMNC能够更全面地描述ncRNA的特征,推动对ncRNA功能的理解。 - 应用价值:MMNC的高分类性能和可解释性使其在生物标志物发现和疾病机制研究中具有广泛应用前景。

研究亮点

  • 多模态整合:MMNC首次整合了序列、二级结构和表达数据,提供了更丰富的ncRNA描述。
  • 可解释性:通过注意力机制,MMNC揭示了不同模态在分类中的贡献,增强了模型的可解释性。
  • 缺失数据处理:MMNC能够有效处理缺失数据,确保所有可用信息都能被利用。

未来方向

研究团队计划扩展MMNC的应用范围,探索类间相似性和新型ncRNA类别的发现,进一步推动ncRNA分类框架的完善。