Prédiction des associations circARN–maladie avec des unités partagées et des mécanismes d'attention multicanal

Contexte

Ces dernières années, les ARN circulaires (circRNA) ont joué un rôle important dans l’émergence, le développement et le traitement des maladies en tant que nouvelle catégorie de molécules d’ARN non codantes. Les circRNA possèdent une structure circulaire unique qui les rend résistants à la dégradation par les nucléases, ce qui en fait des biomarqueurs et des cibles thérapeutiques potentiels. Cependant, l’étude expérimentale des associations entre les circRNA et les maladies est à la fois coûteuse et chronophage, ce qui limite les progrès dans ce domaine. Pour résoudre ce problème, les chercheurs ont commencé à développer des modèles informatiques permettant de prédire les associations circRNA-maladies grâce à des méthodes bioinformatiques, offrant ainsi des pistes pour les recherches expérimentales.

Bien que les méthodes d’apprentissage multivues soient largement utilisées pour prédire les associations circRNA-maladies, les approches existantes ne parviennent souvent pas à exploiter pleinement les informations potentielles entre les différentes vues et négligent les différences d’importance des vues dans les résultats de prédiction. Par conséquent, une équipe de l’Institut de Technologie de Harbin et de l’Université des Sciences et Technologies Électroniques de Chine a proposé une nouvelle méthode combinant des unités partagées et des mécanismes d’attention multicanal, appelée MSMCDA (Multi-view Shared Units and Multi-channel Attention Mechanisms for circRNA-Disease Association Prediction), visant à prédire plus efficacement les associations circRNA-maladies.

Source de l’article

Cette recherche a été menée par Xue Zhang et Chunyu Wang de l’École d’Informatique et de Technologie de l’Institut de Technologie de Harbin, ainsi que par Quan Zou et Mengting Niu de l’Institut des Sciences Fondamentales et Frontalières de l’Université des Sciences et Technologies Électroniques de Chine. L’article a été publié en 2025 dans la revue Bioinformatics sous le titre “Predicting circRNA–disease associations with shared units and multi-channel attention mechanisms”. Le code source et les données de l’article ont été rendus publics sur GitHub pour permettre à d’autres chercheurs de les utiliser et de les améliorer.

Processus et résultats de la recherche

1. Construction des ensembles de données

L’étude a utilisé cinq ensembles de données publics sur les associations circRNA-maladies : circR2Disease, circR2Diseasev2.0, circRNADisease, circ2Disease et circRDS. Ces ensembles de données contiennent des associations validées allant de quelques centaines à plusieurs milliers. Pour construire les réseaux de similarité, l’étude a utilisé la similarité sémantique et la similarité du spectre d’interaction gaussien (GIP) pour évaluer les associations entre les maladies, ainsi que la similarité fonctionnelle et la similarité GIP pour évaluer les associations entre les circRNA. De plus, des réseaux de métaparcours ont été construits pour capturer les informations structurelles entre les circRNA et les maladies.

2. Extraction des caractéristiques et conception des unités partagées

L’étude a utilisé des réseaux de convolution graphique (GCN) pour extraire les caractéristiques des réseaux de similarité et des réseaux de métaparcours. Pour renforcer l’interaction des informations entre les différentes vues, une unité partagée a été conçue, facilitant la fusion des caractéristiques entre les vues de similarité et les vues de métaparcours grâce à des modules d’opérations linéaires. L’introduction de cette unité partagée permet au modèle de capturer plus efficacement les informations potentielles entre les vues, améliorant ainsi la précision des prédictions.

3. Mécanismes d’attention multicanal

Pour ajuster la contribution des différentes vues de similarité aux résultats de prédiction, des mécanismes d’attention multicanal ont été introduits. Ces mécanismes calculent les coefficients d’importance de chaque vue à l’aide de la moyenne globale par pooling et de couches entièrement connectées, puis intègrent les caractéristiques de plusieurs vues de similarité à l’aide de réseaux de neurones convolutifs. Les résultats expérimentaux montrent que les mécanismes d’attention améliorent significativement les performances du modèle.

4. Apprentissage contrastif

Une stratégie d’apprentissage contrastif a également été adoptée pour renforcer la représentation des caractéristiques en maximisant la similarité entre les échantillons positifs et en minimisant celle entre les échantillons négatifs. L’introduction de l’apprentissage contrastif a encore amélioré la capacité du modèle à capturer les associations circRNA-maladies.

5. Entraînement et évaluation du modèle

Le modèle a été entraîné à l’aide de l’optimiseur Adam, et ses performances ont été évaluées par validation croisée à cinq plis. Les résultats expérimentaux montrent que MSMCDA surpasse significativement les autres méthodes de référence en termes d’AUC (aire sous la courbe) et d’AUPR (aire sous la courbe précision-rappel) sur les cinq ensembles de données. Par exemple, sur l’ensemble de données circR2Disease, MSMCDA a atteint un AUC de 0,976, dépassant de 0,022 la deuxième meilleure méthode.

6. Études de cas

Pour valider l’efficacité du modèle dans des applications réelles, des études de cas ont été menées sur le cancer colorectal, le cancer gastrique et le cancer du poumon non à petites cellules. En supprimant les associations circRNA-maladies connues et en réentraînant le modèle, plusieurs nouvelles associations ont été prédites avec succès, et leur précision a été confirmée par une recherche documentaire. Par exemple, l’association prédite entre circ-ZNF609 et le cancer colorectal a été confirmée expérimentalement, démontrant la valeur de MSMCDA dans la découverte de nouvelles associations circRNA-maladies.

Conclusion et signification

MSMCDA, en introduisant des unités partagées et des mécanismes d’attention multicanal, a résolu avec succès les lacunes des méthodes existantes dans l’exploitation des informations multivues et l’ajustement de l’importance des vues. Les résultats expérimentaux montrent que cette méthode présente des avantages significatifs dans la prédiction des associations circRNA-maladies, offrant ainsi de nouveaux biomarqueurs et cibles pour le diagnostic et le traitement des maladies. De plus, la mise en œuvre open-source de MSMCDA fournit un outil précieux pour d’autres chercheurs, favorisant le développement ultérieur des recherches sur les circRNA.

Points forts de la recherche

  1. Conception des unités partagées : En facilitant l’interaction des informations entre les vues de similarité et les vues de métaparcours, elles améliorent significativement la capacité de prédiction du modèle.
  2. Mécanismes d’attention multicanal : Ils permettent d’ajuster de manière adaptative l’importance des différentes vues, optimisant ainsi le processus d’intégration des caractéristiques.
  3. Application de l’apprentissage contrastif : En renforçant la représentation des caractéristiques, il améliore encore les performances du modèle.
  4. Validation sur des ensembles de données variés : Les expériences sur cinq ensembles de données publics démontrent la robustesse et la capacité de généralisation de MSMCDA.
  5. Valeur pratique : Les études de cas valident l’utilité du modèle dans la découverte de nouvelles associations circRNA-maladies.

Perspectives futures

Bien que MSMCDA ait obtenu des résultats significatifs, l’équipe de recherche a également souligné ses limites. Par exemple, le nombre de métaparcours utilisés est actuellement limité, et l’introduction de plus de métaparcours pourrait permettre de capturer des informations plus complètes. De plus, l’intégration de davantage de types de données biologiques (telles que les données d’expression génique et les interactions protéiques) pourrait encore améliorer les performances de prédiction du modèle. L’équipe prévoit d’explorer ces directions dans ses futurs travaux pour accroître la valeur applicative de MSMCDA.