Représentation interprétable multi-modale pour la classification et l'annotation des ARN non codants

Les ARN non codants (ncARN) jouent un rôle clé dans les processus cellulaires et le développement des maladies. Bien que les projets de séquençage du génome aient révélé l’existence d’un grand nombre de gènes non codants, la fonction et la classification des ncARN restent des problèmes complexes et difficiles. La diversité, la complexité et la fonctionnalité des ncARN en font des objets de recherche biomédicale importants, en particulier dans la découverte de biomarqueurs et de cibles thérapeutiques. Cependant, les outils de classification des ncARN existants reposent principalement sur un seul ou deux types de données (comme la séquence ou la structure secondaire), négligeant d’autres sources de données potentiellement importantes. De plus, les méthodes existantes manquent souvent d’interprétabilité, ce qui rend difficile la révélation des caractéristiques des différentes classes de ncARN.

Pour résoudre ces problèmes, une équipe de recherche de l’Université Paris-Saclay et de l’Institut Curie a proposé un modèle d’apprentissage profond multimodal appelé MMNC (Multi-Modal Interpretable Representation for Non-Coding RNA Classification and Class Annotation). Ce modèle intègre les données de séquence, de structure secondaire et d’expression pour réaliser une classification efficace des ncARN, tout en fournissant un mécanisme d’attention interprétable qui révèle l’importance des différentes modalités dans la classification.

Source de l’article

Cet article a été co-écrit par Constance Creux, Farida Zehraoui, François Radvanyi et Fariza Tahi, tous issus de l’Université Paris-Saclay et de l’Institut Curie. L’article a été publié le 31 janvier 2025 dans la revue Bioinformatics, sous le titre “MMNC: Multi-Modal Interpretable Representation for Non-Coding RNA Classification and Class Annotation”.

Processus et détails de la recherche

1. Objectifs et méthodes de la recherche

L’objectif principal de MMNC est de développer un modèle d’apprentissage profond multimodal capable d’intégrer les données de séquence, de structure secondaire et d’expression pour classer les ncARN, tout en fournissant un mécanisme d’attention interprétable. Le modèle adopte une stratégie de fusion intermédiaire, quantifiant la contribution des différentes modalités à la classification grâce à un mécanisme d’attention, et peut gérer les données manquantes.

2. Encodage des modalités

Le modèle MMNC commence par encoder chaque modalité indépendamment pour en extraire des informations significatives : - Encodage de la séquence : Utilisation de réseaux de neurones convolutifs (CNN) ou de modèles Transformer pour encoder les séquences de ncARN. Le modèle CNN comprend plusieurs blocs convolutifs, chacun composé d’une couche convolutive, d’une fonction d’activation Leaky ReLU, d’une normalisation par lots, d’un pooling maximum et d’un Dropout. Le modèle Transformer est basé sur le modèle pré-entraîné DNABERT, utilisant le transfert d’apprentissage pour extraire les caractéristiques de la séquence. - Encodage de la structure secondaire : La structure secondaire de l’ARN est représentée sous forme de graphe et encodée à l’aide de réseaux de neurones graphiques (GNN). Le modèle GNN comprend plusieurs blocs de convolution graphique, chacun composé d’une couche de convolution graphique, d’une fonction d’activation Leaky ReLU, d’une normalisation par lots et d’un Dropout. - Encodage de l’expression : Utilisation d’un perceptron multicouche (MLP) pour encoder les données d’expression. Le modèle MLP comprend plusieurs couches entièrement connectées, chacune composée d’une fonction d’activation ReLU, d’une normalisation par lots et d’un Dropout.

3. Mécanisme d’attention et fusion des modalités

Après l’encodage des modalités, MMNC fusionne les modalités grâce à un mécanisme d’attention. Les étapes spécifiques sont les suivantes : - Projection des modalités : Chaque représentation de modalité est projetée dans un espace de caractéristiques de même dimension. - Calcul de l’attention : Un mécanisme d’attention croisée est utilisé pour calculer la matrice d’interaction entre les modalités et générer des coefficients d’attention quantifiant l’importance de chaque modalité. - Gestion des données manquantes : Un mécanisme de masquage ignore les coefficients d’attention des modalités manquantes, garantissant que le modèle utilise toutes les données disponibles.

4. Tâche de classification

La représentation fusionnée des modalités est utilisée pour la tâche de classification. MMNC utilise un réseau multicouche entièrement connecté pour la classification finale et une fonction de perte d’entropie croisée pour l’entraînement.

Résultats principaux

1. Comparaison des encodeurs de modalités

L’équipe de recherche a comparé les performances des différents encodeurs de modalités : - Encodage de la séquence : Le modèle CNN2 a montré les meilleures performances sur les trois jeux de données, avec des taux de précision de 0,951, 0,980 et 0,966 respectivement. - Encodage de la structure secondaire : Le modèle GNN basé sur les convolutions SAGE a montré les meilleures performances sur les trois jeux de données, avec des taux de précision de 0,797, 0,831 et 0,944 respectivement. - Encodage de l’expression : Le modèle MLP1 a montré les meilleures performances sur le jeu de données D3, avec un taux de précision de 0,790.

2. Étude d’ablation sur la contribution des modalités

Grâce à une étude d’ablation, l’équipe de recherche a découvert que : - Performances unimodales : La modalité de séquence a montré la meilleure performance de classification, suivie par la structure secondaire et l’expression. - Performances multimodales : La combinaison de plusieurs modalités a significativement amélioré la performance de classification. Par exemple, sur le jeu de données D3, la combinaison de trois modalités a atteint un taux de précision de 0,982, bien supérieur à celui des combinaisons unimodales ou bimodales.

3. Interprétabilité du mécanisme d’attention

Le mécanisme d’attention fournit une interprétation des résultats de classification. Par exemple, sur le jeu de données D3 : - lncARN : La modalité d’expression est le principal contributeur à la classification, reflétant les modèles d’expression spécifiques aux tissus des lncARN. - miARN : La modalité de séquence est le principal contributeur à la classification, reflétant les modèles de séquence spécifiques des précurseurs de miARN. - snoARN : Les modalités de séquence et d’expression contribuent toutes deux de manière significative à la classification, reflétant les séquences conservées et les caractéristiques d’expression des familles de snoARN.

4. Comparaison avec les méthodes existantes

MMNC a surpassé les outils de classification de ncARN existants sur les trois jeux de données. Par exemple, sur le jeu de données D1, MMNC a atteint un taux de précision de 0,953, bien supérieur à celui d’autres outils (comme ncRNA-Deep avec 0,914 et RNagcn avec 0,851).

Conclusion et signification

MMNC propose un cadre novateur d’apprentissage profond multimodal, capable de classer efficacement les ncARN tout en fournissant un mécanisme d’attention interprétable qui révèle l’importance des différentes modalités dans la classification. Ce modèle présente les valeurs scientifiques et applicatives suivantes : - Valeur scientifique : En intégrant des données multimodales, MMNC permet une description plus complète des caractéristiques des ncARN, favorisant une meilleure compréhension de leurs fonctions. - Valeur applicative : La haute performance de classification et l’interprétabilité de MMNC en font un outil précieux pour la découverte de biomarqueurs et l’étude des mécanismes des maladies.

Points forts de la recherche

  • Intégration multimodale : MMNC est le premier à intégrer les données de séquence, de structure secondaire et d’expression, offrant une description plus riche des ncARN.
  • Interprétabilité : Grâce au mécanisme d’attention, MMNC révèle la contribution des différentes modalités à la classification, renforçant l’interprétabilité du modèle.
  • Gestion des données manquantes : MMNC est capable de gérer efficacement les données manquantes, garantissant que toutes les informations disponibles sont utilisées.

Directions futures

L’équipe de recherche prévoit d’étendre les applications de MMNC pour explorer les similitudes entre classes et la découverte de nouvelles classes de ncARN, contribuant ainsi à l’amélioration des cadres de classification des ncARN.