Prédire l'affinité médicament-cible en apprenant des connaissances sur les protéines à partir de réseaux biologiques

Prédiction de l’affinité médicament-cible basée sur l’apprentissage des connaissances des protéines via des réseaux biologiques

Introduction

La prédiction de l’affinité médicament-cible (drug-target affinity, DTA) joue un rôle crucial dans le processus de découverte de médicaments. Une prédiction du DTA efficace et précise peut significativement réduire les coûts et le temps de développement de nouveaux médicaments. Ces dernières années, le développement explosif des technologies d’apprentissage profond a fourni un soutien puissant pour la prédiction du DTA. Les méthodes actuelles de prédiction DTA se divisent principalement en méthodes basées sur les séquences protéinées 1D et celles basées sur les représentations structurales protéiques 2D. Cependant, ces méthodes se concentrent uniquement sur les caractéristiques intrinsèques des protéines cibles, en ignorant les vastes connaissances a priori sur l’interaction des protéines révélées par des recherches antérieures.

Pour répondre à ce problème, cet article propose une méthode de prédiction DTA de bout en bout nommée MSF-DTA (affinité médicament-cible basée sur la fusion de caractéristiques multi-sources). MSF-DTA renforce la représentation protéique en utilisant les informations des protéines adjacentes et utilise un cadre avancé de pré-entraînement de graphes VG-AE (Autoencodeur Variationnel de Graphe) pour apprendre ces représentations, ce qui rend les résultats de prédiction plus précis et efficaces.

Origine de l’étude

Cette recherche a été rédigée par Wenjian Ma, Shugang Zhang, Zhen Li, Mingjian Jiang, Shuang Wang, Nianfan Guo, Yuanfei Li, Xiangpeng Bi, Huasen Jiang et Zhiqiang Wei, des chercheurs affiliés à plusieurs institutions renommées comme l’Université Océanique de Chine (campus de Qingdao), l’Université de Qingdao et l’Université de Pétrole de Chine (Est de la Chine). L’article a été publié en avril 2023 dans l’IEEE Journal of Biomedical and Health Informatics.

Détails de l’étude

Flux de travail

  1. Collecte de données et construction du réseau :

Nous avons collecté 18 552 protéines humaines provenant de la base de données SwissProt, puis construit un réseau d’interaction protéine-protéine (PPI) et un réseau de similarité de séquences (SSN) basé sur les interactions protéiques connues.

  1. Représentation des caractéristiques des protéines :

Inclut le codage des séquences, la localisation subcellulaire et les domaines protéiques, ces caractéristiques étant traitées pour aboutir à un vecteur de caractéristiques de 2 045 dimensions.

  1. Autoencodeur Variationnel de Graphe (VG-AE) :

Utilisation du cadre VG-AE pour fusionner des caractéristiques multi-sources de protéines dans les réseaux PPI et SSN. Grâce à l’encodeur de réseau de convolution de graphes (GCN), les représentations de hautes dimensions sont compressées en représentations latentes de basse dimension, puis un décodeur par produit scalaire reconstruit les données du graphe en entrée.

  1. Prédiction DTA :

La prédiction DTA est effectuée en utilisant des représentations latentes de faible dimension. La méthode consiste à fusionner les caractéristiques des protéines et des médicaments extraites par un GCN à 3 couches, puis de sortir les résultats de DTA via plusieurs couches entièrement connectées.

Principaux Résultats

  1. Performance du modèle :

MSF-DTA a obtenu des performances exceptionnelles sur deux ensembles de données de base largement utilisés pour la prédiction DTA: Davis et KIBA. Sur l’ensemble de données Davis, le MSE était de 0,194 et le CI de 0,906 ; sur l’ensemble KIBA, le MSE était de 0,124 et le CI de 0,897. Les résultats expérimentaux montrent que MSF-DTA surpasse significativement les méthodes de prédiction DTA existantes.

  1. Efficacité des caractéristiques des protéines voisines :

En introduisant des informations des protéines voisines des réseaux PPI et SSN, MSF-DTA améliore efficacement la représentation protéique, augmentant ainsi la performance prédictive du modèle.

  1. Applicabilité étendue :

Cette méthode a également excellemment performé dans des tâches de prédiction d’interactions composés-protéines (CPI), démontrant sa capacité de généralisation à travers différentes tâches.

Conclusions et Signification

La méthode MSF-DTA proposée dans cette recherche, en fusionnant des caractéristiques multi-sources de protéines, a significativement amélioré la précision et l’efficacité de la prédiction DTA, offrant un outil précis et efficace. Cette méthode montre non seulement l’efficacité de l’utilisation de caractéristiques protéiques de haut niveau comme nouvelle approche de représentation protéique, mais aussi la faisabilité d’utiliser des caractéristiques des protéines voisines des réseaux PPI et SSN pour prédire les interactions ou affinités entre médicaments et protéines.

Points forts de l’étude

  1. Introduction de caractéristiques multi-sources :

MSF-DTA combine les attributs intrinsèques des protéines avec des connaissances a priori biologiques provenant des réseaux PPI et SSN, offrant une nouvelle perspective pour les tâches de prédiction DTA.

  1. Application du cadre avancé de pré-entraînement de graphe VG-AE :

En utilisant le cadre VG-AE, le modèle capture mieux les connexions topologiques entre les protéines, enrichissant ainsi la représentation protéique.

  1. Excellents résultats expérimentaux :

Que ce soit dans des tâches de prédiction DTA ou de CPI, MSF-DTA dépasse les méthodes existantes les plus avancées.

Conclusion

Cet article propose une nouvelle méthode de prédiction de l’affinité médicament-cible basée sur la fusion de caractéristiques multi-sources, MSF-DTA. En utilisant les informations des protéines voisines dans les réseaux d’interaction protéine-protéine et de similarité de séquences, cette méthode améliore significativement la précision et l’efficacité de la prédiction DTA. L’étude démontre non seulement l’efficacité d’utiliser des caractéristiques protéiques de haut niveau pour la représentation protéique, mais aussi la faisabilité d’employer des caractéristiques des protéines voisines des réseaux PPI et SSN pour prédire les interactions médicament-protéine. Elle offre ainsi une nouvelle solution pour la découverte de médicaments et la prédiction DTA efficace.