Une approche d'apprentissage profond pour la génération rationnelle de ligands avec contrôle de la toxicité
Application du Deep Learning à la génération de ligands ciblant des protéines : Proposition et validation du cadre DeepBlock
Contexte et problèmes de recherche
Dans le processus de découverte de médicaments, la recherche de molécules ligandes capables de se lier à des protéines spécifiques reste un objectif central. Cependant, les méthodes actuelles de criblage virtuel (virtual screening) sont souvent limitées par la taille des bibliothèques de composés et l’étendue de l’espace chimique, rendant difficile la découverte de composés innovants répondant aux caractéristiques cibles. En revanche, la conception de médicaments de novo (de novo drug design), qui génère des structures moléculaires à partir de rien, offre une nouvelle possibilité d’explorer l’espace chimique au-delà des bibliothèques existantes.
Ces dernières années, les modèles génératifs profonds (deep generative models) ont fait des progrès significatifs dans le domaine de la génération de molécules chimiques, incluant les modèles autorégressifs (autoregressive models), les autoencodeurs variationnels (variational autoencoders, VAE), les réseaux antagonistes génératifs (generative adversarial networks, GANs), les modèles de flux normalisés (normalizing flow models) et les modèles de diffusion (diffusion models). Cependant, une limitation commune de ces modèles est qu’ils génèrent principalement des molécules basées sur la distribution de l’espace chimique, sans capacité à concevoir directement des molécules pour des cibles spécifiques, nécessitant un criblage virtuel supplémentaire ou un apprentissage par renforcement pour évaluer l’adéquation des molécules avec les protéines.
Pour répondre à ces problèmes, une équipe de chercheurs de l’Université de Xidian, de l’Université de Xi’an Jiaotong, de l’Université Polytechnique de Macao, de l’Université de Tsukuba et de l’Université de Hunan a proposé une méthode d’apprentissage profond appelée DeepBlock. Inspirée par la technique des bibliothèques de composés codées par ADN (DNA-encoded compound library), cette méthode utilise une stratégie de construction modulaire pour générer des ligands basés sur des séquences de protéines cibles et réguler avec précision leurs propriétés. L’étude a été publiée dans Nature Computational Science sous le titre “A deep learning approach for rational ligand generation with toxicity control via reactive building blocks”.
Conception de la recherche et cadre innovant
Processus de recherche de DeepBlock
Le cadre DeepBlock proposé dans cette étude réalise la génération de molécules en deux étapes : d’abord, la génération de blocs de construction moléculaires (building blocks), puis la réorganisation de ces blocs pour former des molécules complètes. Cette conception vise à résoudre les problèmes d’incohérence structurelle chimique causés par le traitement en plusieurs étapes des méthodes traditionnelles de génération de molécules, tout en permettant le contrôle des réactions chimiques entre les blocs et des propriétés moléculaires.
1. Algorithme de fragmentation et de reconstruction moléculaire
En utilisant l’algorithme BRICS (Breaking of Retrosynthetically Interesting Chemical Substructures) basé sur la chimie rétrosynthétique, l’équipe a conçu de manière innovante un algorithme de fragmentation et de reconstruction moléculaire basé sur le calcul graphique. Grâce à cet algorithme, les molécules sont décomposées en séquences de blocs indépendantes (block sequences) avec les caractéristiques suivantes : - Pendant la fragmentation, une gestion stricte des règles de rupture des liaisons et de l’enregistrement des nœuds/arêtes assure que le processus de fragmentation et de reconstruction des molécules est bidirectionnellement unique. - Dans les tests sur le jeu de données ChemBL, cet algorithme n’a échoué que 70 fois sur 2 205 345 molécules, avec un taux de réussite de 99,99683 %, démontrant sa fiabilité et son utilité.
2. Conception du Block Generative Network (BGNet)
BGNet est le réseau génératif central de DeepBlock, conçu comme un autoencodeur variationnel conditionnel (Conditional Variational Autoencoder, CVAE) qui génère des séquences de blocs moléculaires en utilisant des informations sur les séquences de protéines. Parmi ses caractéristiques : - Double encodage : BGNet encode indépendamment les séquences de blocs de ligands et les séquences de protéines, puis utilise un module de perception de la contribution de liaison (binding contribution perception module) pour prédire les valeurs de contribution de liaison des résidus protéiques. Cette conception résout la difficulté de ne pas pouvoir utiliser les données structurelles 3D des protéines. - Pré-entraînement du modèle : Le pré-entraînement sur le jeu de données ChemBL a considérablement étendu l’espace chimique, réduisant efficacement le risque de surajustement dû à la taille limitée des ensembles de données protéine-ligand.
3. Intégration des algorithmes d’optimisation
L’équipe a combiné BGNet avec l’algorithme de recuit simulé (Simulated Annealing, SA) et l’optimisation bayésienne (Bayesian Optimization, BO) pour optimiser des propriétés supplémentaires telles que la toxicité moléculaire. Pendant l’optimisation, les candidats moléculaires voisins potentiels générés par BGNet sont explorés et sélectionnés à l’aide des algorithmes d’optimisation, produisant des molécules qui ont à la fois une forte affinité de liaison avec la protéine cible et une bonne faisabilité de synthèse.
Conception des expériences et tests
L’équipe a utilisé 100 000 paires protéine-ligand du jeu de données CrossDocked 2020 pour entraîner le modèle et a généré des molécules de ligands cibles pour 100 protéines de test afin d’évaluer les performances. Ces molécules ont été comparées à des modèles existants selon les critères suivants : 1. Affinité de liaison (Binding Affinity) : Le score Vina a été utilisé pour évaluer les performances physicochimiques de la liaison moléculaire avec la cible. 2. Similarité à un médicament (Drug Likeness) et faisabilité de synthèse : Quantification du potentiel de développement de médicaments et de la difficulté pratique de synthèse des molécules. 3. Distribution et diversité des propriétés moléculaires : Analyse de la cohérence entre la distribution des propriétés chimiques des molécules générées et celles des bibliothèques de référence.
Résultats et découvertes clés
Résultats et analyse
Affinité de liaison des molécules générées Les molécules générées par DeepBlock ont montré une forte affinité de liaison selon le score Vina, avec une distribution plus concentrée, indiquant une cohérence et une fiabilité élevées des candidats moléculaires. Par rapport aux modèles de référence comme Pocket2Mol et TargetDiff, DeepBlock a montré des avantages significatifs en termes de qualité moléculaire et d’uniformité de distribution.
Similarité à un médicament et faisabilité de synthèse Les molécules générées par DeepBlock ont non seulement une forte affinité de liaison, mais aussi de meilleures performances en termes de similarité à un médicament (score QED) et de faisabilité de synthèse (score SA). Les molécules à haute affinité ne sacrifient pas la praticabilité des molécules, démontrant la capacité du modèle à générer des molécules réalistes.
Contrôle d’optimisation des propriétés moléculaires Les expériences de contrôle de la toxicité basées sur les algorithmes SA ou BO ont réussi à réduire les niveaux de toxicité des molécules générées tout en conservant leur capacité de liaison à la protéine cible, validant davantage l’utilité de DeepBlock dans les tâches multi-objectifs.
Capacité de généralisation des informations structurelles En l’absence d’informations structurelles sur la cible, les molécules conçues par DeepBlock à partir des séquences protéiques ont montré des similitudes avec les structures clés de liaison des inhibiteurs connus, révélant son potentiel dans la découverte de médicaments pour de nouvelles cibles.
Points forts de la recherche
- Première application de l’approche modulaire à la génération de molécules, combinant le concept des bibliothèques chimiques codées par ADN pour une génération moléculaire structurée et contrôlable.
- L’approche modulaire de génération moléculaire a une large applicabilité en chimie de synthèse et en développement de médicaments, en particulier pour résoudre les problèmes de synthèse au niveau moléculaire.
- Les expériences ont validé la faisabilité de l’optimisation de la toxicité et de l’amélioration de l’affinité de liaison, offrant de nouvelles perspectives pour l’« optimisation multi-attributs » dans la conception de médicaments.
Implications de la recherche et directions futures
DeepBlock résout les problèmes des modèles actuels de conception de médicaments qui ne parviennent pas à combiner parfaitement les cibles et l’espace chimique. Grâce à la génération et à la reconstruction de modules, le modèle prend en compte à la fois l’actualité chimique des structures et la capacité de contrôle des propriétés moléculaires. Cela fournit non seulement un outil innovant pour la recherche scientifique, mais accélère également le développement de médicaments pour de nouvelles cibles et la conception précise de médicaments à faible toxicité.
À l’avenir, l’équipe prévoit d’optimiser dans les directions suivantes : 1. Explorer des algorithmes de génération de nouveaux modules pour améliorer davantage la diversité et l’innovation moléculaires. 2. Passer de la génération de molécules 2D à des structures moléculaires tridimensionnelles (3D) pour répondre plus précisément aux besoins des environnements de découverte de médicaments. 3. Étendre l’application pratique du modèle DeepBlock dans les projets de développement de médicaments à grande échelle.
Cette recherche élargit non seulement les frontières de l’apprentissage profond dans la conception de médicaments, mais offre également une méthode visuelle et systématique pour la découverte de médicaments innovants, ce qui aura un impact profond dans les domaines de la biologie chimique et de l’intelligence artificielle.