SP-DTI : Transformer informé par les sous-poches pour la prédiction des interactions médicament-cible
Contexte académique
La prédiction des interactions médicament-cible (Drug-Target Interaction, DTI) est une étape cruciale dans la découverte de médicaments, permettant de réduire considérablement les coûts et le temps de criblage expérimental. Cependant, bien que les techniques d’apprentissage profond aient amélioré la précision de la prédiction des DTI, les méthodes existantes font face à deux défis majeurs : le manque de généralisation et la négligence des interactions au niveau des sous-poches. Premièrement, les modèles existants voient leurs performances chuter de manière significative face à des protéines inconnues et dans des configurations inter-domaines. Deuxièmement, les approches actuelles d’apprentissage des relations moléculaires négligent souvent les interactions au niveau des sous-poches, qui sont pourtant essentielles pour comprendre les détails des sites de liaison. Pour résoudre ces problèmes, les chercheurs ont proposé un nouveau modèle appelé SP-DTI, qui améliore la précision et la généralisation de la prédiction des DTI en introduisant l’analyse des sous-poches et des modèles de langage pré-entraînés.
Source de l’article
Cet article a été co-écrit par Sizhe Liu, Yuchen Liu, Haofeng Xu, Jun Xia et Stan Z. Li. Ils appartiennent respectivement au département d’informatique et au département de biologie quantitative et computationnelle de l’University of Southern California, ainsi qu’à l’école d’ingénierie de la Westlake University. L’article a été publié en 2025 dans la revue Bioinformatics, sous le titre SP-DTI: Subpocket-Informed Transformer for Drug–Target Interaction Prediction.
Processus de recherche
1. Définition du problème
La prédiction des DTI est définie comme une tâche de classification binaire, dont l’objectif est de prédire s’il existe une interaction entre un médicament et une protéine cible. Les médicaments sont représentés par leur notation SMILES (Simplified Molecular Input Line Entry System), tandis que les protéines cibles sont représentées par des séquences d’acides aminés. Le cœur de la tâche consiste à apprendre une fonction qui mappe les paires médicament-cible à un score d’interaction binaire, où 0 signifie aucune interaction et 1 signifie une interaction.
2. Conception du modèle
Le modèle SP-DTI est composé de trois modules principaux :
a) Module de modélisation des sous-poches (Subpocket Modeling Module, SMM)
Ce module vise à capturer les interactions complexes entre les médicaments et les protéines au niveau atomique. En utilisant AlphaFold2 pour générer la structure tridimensionnelle des protéines, et l’algorithme CAVIAR pour identifier les poches de liaison potentielles, ces dernières sont ensuite décomposées en sous-poches. Chaque sous-poche se voit attribuer un score indiquant sa probabilité d’être un site de liaison pour un ligand. Ensuite, un graphe indépendant est généré pour chaque sous-poche et traité à l’aide d’un réseau de convolution sur graphes (GCN), produisant finalement un plongement détaillé des caractéristiques des sous-poches.
b) Module de fusion séquence-graphe (Seq-Graph Fusion Module, SGFM)
Ce module améliore les capacités d’encodage en combinant des modèles de langage pré-entraînés et des réseaux de neurones graphiques (GNN). Les séquences des protéines et des médicaments sont respectivement traitées par les modèles de langage ESM-2 et ChemBERTa pour générer des plongements, qui sont ensuite utilisés comme caractéristiques de nœuds dans les GNN. La sortie finale est une représentation unifiée des protéines et des médicaments.
c) Module d’interaction (Interaction Module)
Ce module utilise un modèle Transformer pour capturer les interactions entre les médicaments, les protéines et les sous-poches. Tout d’abord, les plongements des médicaments, des protéines et des sous-poches sont combinés en une matrice, et un codage positionnel est introduit pour capturer les relations entre les sous-poches et les poches. Ensuite, l’attention multi-têtes met à jour les plongements, qui sont finalement utilisés pour prédire la probabilité d’interaction via un perceptron multicouche (MLP).
3. Expériences et résultats
a) Jeux de données et métriques d’évaluation
L’étude a utilisé les jeux de données Biosnap et Davis, contenant respectivement 4510 médicaments, 2181 protéines et 68 médicaments, 379 protéines. Les métriques d’évaluation incluent ROC-AUC (aire sous la courbe ROC) et PR-AUC (aire sous la courbe précision-rappel).
b) Test de division aléatoire
Dans le cadre d’une division aléatoire, SP-DTI a montré des performances exceptionnelles sur les jeux de données Biosnap et Davis, avec des ROC-AUC respectifs de 0.931 et 0.934, surpassant significativement tous les modèles de référence.
c) Test de division médicaments/protéines inconnus
Dans des configurations avec des médicaments ou des protéines inconnus, SP-DTI a maintenu des performances élevées, en particulier dans le cas des protéines inconnues, où le ROC-AUC a atteint 0.873, ne diminuant que de 6 %, alors que les performances des autres modèles de référence chutaient de plus de 12 %.
d) Test de division inter-domaines
Dans le test inter-domaines, SP-DTI a obtenu un ROC-AUC de 0.773, démontrant une forte capacité de généralisation dans des configurations inter-domaines.
e) Interprétabilité du modèle
Grâce au mécanisme d’attention, SP-DTI est capable de prédire quels sites de liaison protéiques sont les plus susceptibles de se lier à un ligand donné. L’étude a illustré cela avec l’exemple de la liaison entre la protéase du VIH D545701 et GW0385, montrant comment le modèle identifie avec précision les sites de liaison validés expérimentalement.
4. Étude d’ablation
L’étude d’ablation a montré que les modèles de langage pré-entraînés avaient l’impact le plus important sur les performances du modèle, suivis par l’encodeur de sous-poches, le module d’interaction et le module de fusion. La suppression de l’une de ces composantes entraîne une baisse de performance, validant ainsi l’importance de chaque module.
Conclusion et signification
Le modèle SP-DTI, en introduisant des informations sur les sous-poches et un module de fusion séquence-graphe, a considérablement amélioré la précision et la généralisation de la prédiction des DTI. Les résultats montrent que SP-DTI surpasse les modèles les plus avancés dans des configurations de division aléatoire, de médicaments/protéines inconnus et inter-domaines. De plus, l’interprétabilité du modèle fournit des insights précieux pour la découverte de médicaments, aidant les scientifiques à comprendre les mécanismes d’interaction prédits, ce qui accélère le processus de développement de médicaments.
Points forts de la recherche
- Modélisation au niveau des sous-poches : Introduction pionnière des informations sur les sous-poches dans la prédiction des DTI, offrant une analyse plus fine des sites de liaison.
- Fusion séquence-graphe : Première combinaison de modèles de langage pré-entraînés avec des réseaux de neurones graphiques, renforçant la capacité de généralisation du modèle.
- Performance inter-domaines : Excellentes performances dans des configurations inter-domaines, montrant le potentiel du modèle dans des applications réelles.
- Interprétabilité du modèle : Visualisation des sites de liaison grâce au mécanisme d’attention, améliorant la transparence du modèle.
Disponibilité du code et des données
Le code de SP-DTI est open source et disponible sur GitHub : https://github.com/steven51516/sp-dti. Les informations sur la division des jeux de données peuvent être obtenues à partir des dépôts GitHub de MolTrans et DrugBan.
Remerciements
Les auteurs remercient les relecteurs anonymes pour leurs précieuses suggestions.
Contributions des auteurs
Sizhe Liu et Yuchen Liu sont co-premiers auteurs, responsables de la conceptualisation, de la conception des méthodes, du développement logiciel et de la rédaction de l’article. Haofeng Xu a participé au développement logiciel et à la révision de l’article. Jun Xia a supervisé et validé les travaux. Stan Z. Li a assuré la gestion du projet et le soutien financier.
Soutien financier
Cette recherche a été soutenue par la Fondation nationale des sciences naturelles de Chine, le Centre de biologie synthétique et de bio-ingénierie intégrée de l’Université Westlake, ainsi que le Fonds de recherche sur les industries futures de l’Université Westlake.