Approche d'apprentissage contrastif par graphe basé sur l'échantillonnage négatif hiérarchique pour la prédiction des associations médicament-maladie
Étude sur l’apprentissage par contraste de graphiques basé sur un échantillonnage négatif hiérarchique pour la prédiction des associations médicament-maladie
La prédiction des associations médicament-maladie (RDAs) joue un rôle crucial dans la révélation des stratégies de traitement des maladies et la promotion du repositionnement des médicaments. Cependant, les méthodes existantes dépendent principalement de connaissances spécifiques limitées, ce qui limite leur efficacité dans la prédiction des associations potentielles entre les médicaments et les maladies. De plus, définir simplement les informations inconnues sur les relations médicament-maladie comme des échantillons négatifs présente des lacunes inhérentes. Pour surmonter ces défis, cet article propose un nouveau modèle de graphique par contraste basé sur un échantillonnage négatif hiérarchique, appelé HSGCL-RDA, visant à prédire les associations potentielles entre les médicaments et les maladies.
Contexte de la recherche et problème de recherche
Le processus de développement de médicaments et de contrôle de la progression des maladies est long et coûteux. Avec l’augmentation du nombre de maladies et de leurs variations, le besoin de médicaments efficaces augmente également. Des épidémies mondiales (comme le COVID-19) ont posé des défis immenses aux traitements existants, nécessitant le développement rapide de nouveaux médicaments. Explorer de nouvelles utilisations des médicaments existants pose de nombreux défis. Bien que les modèles algorithmiques actuels réduisent dans une certaine mesure les coûts et le temps de développement des médicaments, ils présentent les limitations suivantes:
- Insuffisance des mesures de similarité : De nombreux modèles ne tiennent pas suffisamment compte des caractéristiques multidimensionnelles des différents objets, évitant ainsi bruit et perte d’information dans le processus de calcul.
- Problème de sélection des échantillons négatifs : La plupart des modèles se basent sur les informations des échantillons positifs d’associations connues, sans prendre en compte le réseau d’associations rares des échantillons inconnus. Les définir simplement comme des échantillons négatifs ne suffit pas pour prédire les associations potentielles médicamenteuses-maladies, et choisir des échantillons négatifs plus fiables est crucial pour des résultats prédictifs satisfaisants.
- Application insuffisante de l’apprentissage par contraste : Bien que l’apprentissage par contraste ait montré des résultats significatifs dans l’apprentissage de la représentation des graphes, il n’a pas encore été appliqué à la prédiction des associations potentielles médicamenteuses-maladies.
Source du document de recherche
Cet article est rédigé par Yuanxu Wang, Jinmiao Song, Qiguo Dai, et Xiaodong Duan, provenant respectivement de Xinjiang University et Dalian Minzu University. L’article de recherche sera publié en mai 2024 dans le journal IEEE Journal of Biomedical and Health Informatics.
Processus de recherche
Construction du réseau hétérogène
Construction des réseaux de similarité des différentes biomolécules : Calcul de la similarité entre différents types de médicaments, maladies et protéines, et extraction des informations de caractéristiques efficaces par fusion de décomposition matricielle régularisée. Cet article utilise initialement la méthode de similarité du noyau du profil d’interaction gaussienne (GIP), largement utilisée ces dernières années pour le calcul de la similarité de différentes biomolécules. Pour améliorer la capacité d’expression des caractéristiques, des méthodes de calcul de la similarité sémantique des maladies, de la similarité des séquences de protéines et de la similarité de Jaccard des médicaments ont également été choisies.
Fusion des matrices de similarité : Obtenir des informations de similarité de différentes biomolécules par différentes méthodes de calcul de similarité, et construire un réseau de caractéristiques complet par fusion des caractéristiques. Utiliser la décomposition matricielle régularisée pour obtenir des représentations vectorielles de faible dimension, afin de capturer efficacement les informations caractéristiques des nœuds.
Stratégie d’échantillonnage négatif hiérarchique : Utiliser un algorithme d’échantillonnage hiérarchique basé sur le réseau de similarité, d’abord en utilisant l’algorithme PageRank pour évaluer et classer le réseau de similarité des médicaments, maladies et biomolécules protéiques, afin d’extraire des informations biologiques hautement associées. Ensuite, extraire les informations protéiques des molécules de maladies selon les informations d’association, et effectuer une sélection de données selon le réseau d’association des médicaments protéiques, pour finalement obtenir un ensemble de données négatives fiables.
Module par contraste de graphes
Module d’agrégation d’informations intra-domaine de méta-chemin : Utiliser des couches de réseau attentionnel de graphes pour apprendre l’importance des informations d’interaction des nœuds dans le méta-chemin et obtenir des informations d’incorporation des nœuds. Capturer les représentations des nœuds des médicaments et des maladies basées sur différents méta-chemins par apprentissage des poids d’attention.
Module d’agrégation d’informations inter-domaines de méta-chemin : Étant donné que différents méta-chemins ont des représentations de caractéristiques différentes, agréger davantage les informations de caractéristiques sémantiques dans ces méta-chemins pour améliorer l’efficacité des caractéristiques, et assigner différents poids aux différents méta-chemins.
Module par contraste de caractéristiques de graphes à deux canaux : Compte tenu de l’existence d’informations de caractéristiques plus profondes entre les médicaments et les maladies, utiliser GCN et SoGCN pour construire respectivement les graphes de caractéristiques globales et locales, afin d’apprendre pleinement leurs informations de représentation internes. Appliquer une méthode d’apprentissage par contraste de graphes auto-supervisée, définir les échantillons positifs et négatifs basés sur les graphes de caractéristiques globales et locales, pour le calcul de la perte par contraste.
Optimisation et expérimentation du modèle
Pour l’optimisation, utiliser un perceptron multicouche (MLP) pour mettre à jour les informations de représentation des nœuds obtenues, et normaliser avec la fonction logsoftmax. Les expérimentations utilisent une méthode de validation croisée à cinq volets, et évaluent la performance du modèle à travers divers indicateurs tels que AUC, AUPR, précision, rappel, et score F1. De plus, des expérimentations comparatives et des analyses de supériorité ont été menées sur la sélection des échantillons négatifs, les réglages des couches de GCN et SoGCN, ainsi que sur les hyperparamètres.
Principaux résultats de recherche
Les résultats expérimentaux de HSGCL-RDA sur plusieurs ensembles de données de référence montrent que cette méthode surpasse les méthodes existantes en termes de performance dans la prédiction des associations médicament-maladie. En particulier, l’optimisation de la fonction de coût de contraste combinée sur le réseau de caractéristiques initial des échantillons positifs et négatifs et l’adoption de la stratégie d’échantillonnage négatif hiérarchique ont amélioré efficacement la capacité du modèle à capturer les informations de structure de graphes dans l’espace non euclidien.
Signification et valeur de la recherche
HSGCL-RDA montre non seulement une performance exceptionnelle dans la prédiction des associations médicament-maladie, mais contribue également à découvrir les effets thérapeutiques potentiels des médicaments existants, ayant une valeur d’application importante. La méthode proposée offre un moyen efficace de résoudre les problèmes clés dans la prédiction des associations médicament-maladie, avec une innovation notable dans l’amélioration du choix des échantillons négatifs et l’application de l’apprentissage par contraste sur les réseaux hétérogènes.
Points forts remarquables
- Stratégie d’échantillonnage négatif hiérarchique : En choisissant des échantillons négatifs plus fiables par échantillonnage négatif hiérarchique, le modèle a amélioré ses performances de prédiction dans des réseaux d’associations rares.
- Agrégation d’informations intra-domaine et inter-domaine de méta-chemins : Capture efficacement les informations multidimensionnelles des nœuds sous un réseau hétérogène, améliorant ainsi la capacité d’expression des caractéristiques.
- Graphes de caractéristiques à deux canaux par contraste : Explore profondément les associations plus profondes entre les médicaments et les maladies par des graphes de caractéristiques globales et locales, améliorant les performances prédictives du modèle.
- Validation et évaluation : Les expérimentations sur différents ensembles de données, plages d’hyperparamètres et stratégies de sélection d’échantillons négatifs ont démontré la large applicabilité et l’efficacité de HSGCL-RDA.
Conclusion
Cet article propose une méthode d’apprentissage par contraste de graphes basé sur un échantillonnage négatif hiérarchique (HSGCL-RDA), améliorant efficacement les performances de prédiction des associations médicament-maladie en optimisant les stratégies de sélection des échantillons négatifs et la structure de contraste des graphes. Pour les futures expérimentations en laboratoire, cette recherche fournit une base de prédiction fiable pour déterminer les associations réelles médicament-maladie.