Réseaux Neuronaux Graphiques avec Connaissances Préalables Multiples pour l'Analyse de Données Multi-omiques

Réseau de neurones graphique avec connaissances préalables multiples pour l’analyse de données multi-omiques en médecine

Introduction générale

La médecine de précision représente un domaine crucial pour l’avenir des soins de santé car elle propose des traitements personnalisés pour les patients, améliorant ainsi les résultats tout en réduisant les coûts. Par exemple, en raison des caractéristiques cliniques, pathologiques et moléculaires complexes des patientes atteintes de cancer du sein, le même traitement peut produire des effets variés. Grâce au développement rapide des technologies biomédicales, la caractérisation des maladies peut désormais s’effectuer via des données multi-omiques. Les approches multi-omiques, comparées aux méthodes mono-omiques, capturent mieux les informations cohérentes et complémentaires entre différents jeux de données, permettant ainsi la construction de modèles plus précis et plus approfondis. Par exemple, l’Atlas du Génome du Cancer (The Cancer Genome Atlas, TCGA) offre des données multi-omiques comprenant l’expression de l’ARNm, la méthylation de l’ADN et les variations du nombre de copies (Copy Number Variation, CNV). Par conséquent, il devient nécessaire d’introduire des données multi-omiques dans diverses tâches de la médecine de précision, telles que la prédiction de la réponse au traitement, la découverte de gènes et l’analyse de la survie. Schéma du cadre d’analyse multi-omique

Auteurs et provenance

Cet article a été co-écrit par Shunxin Xiao, Huibin Lin, Conghao Wang et Shiping Wang (membre, IEEE) ainsi que Jagath C. Rajapakse (fellow, IEEE). Shunxin Xiao fait partie de l’École de sciences et d’ingénierie informatiques de l’Université technologique de Nanyang et de l’École de sciences informatiques et de données de l’Université de Fuzhou. Huibin Lin et Shiping Wang appartiennent à l’École de sciences informatiques et de données de l’Université de Fuzhou. Conghao Wang et Jagath C. Rajapakse sont également affiliés à l’École de sciences et d’ingénierie informatiques de l’Université technologique de Nanyang. Cet article a été publié dans l’IEEE Journal of Biomedical and Health Informatics en septembre 2023.

Contenu de la recherche

Processus de recherche

Cet article propose un cadre d’analyse de données multi-omiques basé sur des réseaux de neurones graphiques (Graph Neural Networks, GNN) en combinant plusieurs connaissances préalables pour optimiser l’apprentissage multi-omique. Cette méthode comprend quatre modules principaux :

  1. Module d’apprentissage au niveau des caractéristiques : Il agrège les informations des caractéristiques d’entrée via un graphe préalable pour générer des embeddings au niveau des caractéristiques.
  2. Module de projection : Il maximise la cohérence entre les différents réseaux préalables en optimisant une perte contrastive.
  3. Module d’apprentissage au niveau des échantillons : Il apprend des représentations globales à l’aide d’un perceptron multicouche (Multilayer Perceptron, MLP).
  4. Module spécifique aux tâches : Il étend de manière flexible le cadre pour s’adapter à différentes tâches d’analyse multi-omiques en aval.

La validation expérimentale a démontré l’efficacité de ce cadre dans la tâche de classification des sous-types moléculaires du cancer.

Résultats principaux

Dans la tâche de classification des sous-types moléculaires du cancer, les résultats expérimentaux montrent que le MPK-GNN (Graph Neural Network avec connaissances préalables multiples) surpasse d’autres algorithmes d’état de l’art sur plusieurs ensembles de données, y compris les méthodes d’apprentissage multi-vues et les méthodes d’intégration multi-omiques. Plus précisément :

  • Module d’apprentissage au niveau des caractéristiques : Il utilise un réseau de convolution de graphes (Graph Convolutional Network, GCN) pour apprendre les représentations au niveau des caractéristiques à partir des caractéristiques multi-omiques d’entrée. Les graphes utilisés incluent le réseau d’interaction gène-gène (GGI), le réseau d’interaction protéine-protéine (PPI) et le réseau de co-expression (Coexp).
  • Module de projection : Il reconstruit les représentations de chaque connaissance préalable à l’aide d’un réseau de neurones superficiel et maximise la cohérence entre elles.
  • Module d’apprentissage au niveau des échantillons : Il apprend une représentation globale de chaque échantillon d’entrée via un perceptron multicouche.
  • Module spécifique aux tâches : Il connecte les embeddings au niveau des caractéristiques et les représentations au niveau des échantillons pour les entrer dans un module spécifique aux tâches, comme la classification des sous-types moléculaires du cancer.

Conclusion et significations

Cette recherche propose un cadre d’apprentissage profond de bout en bout extensible (MPK-GNN), qui introduit pour la première fois un cadre d’apprentissage contrastif dans l’analyse des données multi-omiques, tout en exploitant plusieurs graphes de connaissances préalables. Les résultats expérimentaux montrent que le MPK-GNN améliore considérablement les performances dans la classification des sous-types moléculaires du cancer. Cette méthode aide non seulement à améliorer la robustesse et les performances des modèles informatiques, en particulier lorsque les échantillons supervisés sont rares, mais contribue également à étendre les tâches d’analyse des données multi-omiques. Les futurs travaux incluront l’optimisation du module au niveau des échantillons pour mieux capturer les informations des caractéristiques d’entrée et valider l’avantage du MPK-GNN dans plus de tâches d’analyse de données multi-omiques.

Points forts de la méthode

  1. Application innovante : Introduction simultanée de plusieurs graphes préalables dans l’analyse des données multi-omiques pour la première fois.
  2. Cadre d’apprentissage contrastif : Optimise l’apprentissage en utilisant plusieurs graphes de connaissances partagées.
  3. Performance supérieure : Réalisation de résultats compétitifs sur plusieurs ensembles de données de référence, démontrant une bonne robustesse.

Informations supplémentaires

  • Ensembles de données : Utilisation des ensembles de données pan-cancer TCGA et de cancer du sein BRCA.
  • Modèles comparatifs : Inclut les méthodes traditionnelles d’apprentissage automatique (comme SVM, RF, KNN) et les modèles d’apprentissage profond récents (comme DeepMO, MOGONET, CMSC).
  • Configuration expérimentale : Comprend l’optimisation des hyperparamètres et des expériences répétées pour garantir la stabilité et la fiabilité des résultats.

À travers les vérifications et analyses susmentionnées, le cadre MPK-GNN proposé dans cet article montre son immense potentiel pour l’analyse des données multi-omiques, ouvrant de nouvelles perspectives et méthodes pour la recherche et l’application de la médecine de précision.