EvoAI permet une compression extrême et une reconstruction de l'espace des séquences protéiques

Compression extrême et reconstruction de l’espace des séquences protéiques : Une avancée majeure avec EvoAI

Introduction

La conception et l’optimisation des protéines représentent un défi central dans les domaines de la biotechnologie, de la médecine et de la biologie synthétique. Les fonctions des protéines sont déterminées par leur séquence et structure, mais l’espace des séquences fonctionnelles (sequence space) est extrêmement complexe et de haute dimensionnalité, englobant d’innombrables possibilités. Comprendre et explorer cet espace immense demeure un obstacle majeur : comment compresser efficacement cet espace pour identifier les caractéristiques fonctionnelles importantes ?

Les approches existantes, telles que l’évolution dirigée (directed evolution), le balayage mutationnel profond (deep mutational scanning, DMS) et la mutagenèse dirigée par saturation (site-saturation mutagenesis), ont permis de mieux comprendre la relation entre génotypes et phénotypes. Cependant, ces méthodes sont limitées en termes de couverture de l’espace des séquences, d’exactitude et de capacité à explorer les dimensions élevées de cet espace. Les approches computationnelles, comme celles basées sur les séquences ou les structures, dépendent souvent de données d’entraînement disponibles, ce qui limite leur applicabilité aux régions inexplorées de l’espace des séquences.

Ainsi, cette étude vise à développer une nouvelle méthode capable de surmonter ces limitations expérimentales et computationnelles en abordant des questions fondamentales : comment scanner efficacement l’espace des séquences et le compresser, en particulier dans les dimensions élevées ? Et comment utiliser ces données compressées pour reconstruire et prédire les mutations protéiques qui amélioreront les fonctions biologiques ? Pour cela, les auteurs introduisent une méthode hybride intégrant une plateforme expérimentale et une approche computationnelle, nommée « EvoAI ».

Source de l’article

Cette étude novatrice a été menée en collaboration entre des chercheurs de l’Université Tsinghua, du Broad Institute du MIT et de Harvard, du Williams College, et du Massachusetts Institute of Technology (MIT). L’article, dont Ziyuan Ma est le premier auteur, et Shuyi Zhang l’auteur correspondant, a été publié le 11 novembre 2024 dans Nature Methods.

Processus de recherche

Cette étude décrit le développement et la validation d’EvoAI, qui combine la plateforme expérimentale « EvoScan » à une méthode de modélisation basée sur l’apprentissage profond. Ces deux composantes forment une nouvelle approche intégrée pour explorer et reconstruire de manière efficace l’espace des séquences protéiques.

1. EvoScan : Un système de balayage évolutif expérimental

EvoScan est une méthode améliorée basée sur l’évolution par assistanat de phages (Phage-Assisted Noncontinuous Evolution, PANCE), utilisant le système d’induction de mutations guidées par CRISPR-dépendant (EvolvR). Cette technique permet une exploration rapide et ciblée de l’espace des séquences.

  • Conception et principes du système
    L’idée centrale d’EvoScan est de segmenter l’espace complexe et multidimensionnel des séquences grâce à l’utilisation de gRNA (guide RNA) pour induire des modifications dans des sous-espaces spécifiques. Le phage M13 sert de vecteur, avec des circuits génétiques soigneusement conçus pour associer des fonctions spécifiques à la prolifération des phages. Par exemple, dans le cadre des interactions EGFP (Enhanced Green Fluorescent Protein) - Nanobody, les chercheurs ont conçu un système reliant la liaison protéine-protéine à l’expression du gène gIII, modifiant ainsi la propagation des phages.

  • Validation et application
    À l’aide de ce système, les chercheurs ont illustré la capacité d’EvoScan à localiser des points d’ancrage fonctionnels (anchors). Par exemple, dans un modèle avec une mutation artificielle (E103K), ils ont observé que deux passages suffisaient pour rétablir la mutation initiale, démontrant l’efficacité et la rapidité de la méthode EvoScan.

2. Analyse approfondie et application multidimensionnelle

L’efficacité et l’universalité d’EvoScan ont été testées sur trois systèmes fonctionnels clés :

  • Interactions protéine-ligand : Avec la protéase principale du SARS-CoV-2 (Mpro) comme modèle, la méthode a permis d’identifier des mutations clés responsables de la résistance aux inhibiteurs moléculaires comme GC376 et Nirmatrelvir, incluant des mutations telles qu’E166V et S144A, ainsi que de nombreuses nouvelles mutations.

  • Interactions protéine-ADN : Les chercheurs ont combiné EvoScan avec l’exploration des interactions protéine-ADN à l’aide d’un régulateur transcriptionnel de la famille Tetr, AmeR. Ce processus a permis d’identifier 82 variants fonctionnels, représentant 52 sites mutationnels essentiels.

3. EvoAI : Modélisation basée sur l’apprentissage profond pour prédire de nouvelles protéines

En utilisant les données expérimentales comme points d’ancrage pour l’entraînement, une plateforme computationnelle nommée EvoAI a été développée pour reconstruire et modéliser l’espace séquentiel à haute dimensionnalité.

  • Architecture du modèle
    EvoAI combine le modèle pré-entraîné GeoFitness et le modèle linguistique ESM-2 (Evolutionary Scale Modeling). Avec des couches supplémentaires de perceptrons multi-couche (MLP), EvoAI est capable d’identifier les interactions complexes entre mutations. Le coefficient de corrélation de Spearman pour ces prédictions atteint 0,91, démontrant une précision exceptionnelle.

  • Validation expérimentale
    EvoAI a permis de concevoir dix nouveaux variants protéiques basés sur ses prédictions. Ceux-ci montrent des améliorations remarquables de leur fonction (augmentation de l’effet de répression des gènes de 10 à 38 fois), surpassant largement les variants générés par d’autres méthodes comme le DMS.

Conclusions

En combinant EvoScan et EvoAI, cette étude apporte des preuves solides de la compressibilité extrême de l’espace séquentiel protéique. Les auteurs montrent que cet espace, d’une complexité théorique proche de 10^50 dimensions, peut être compressé en 82 points d’ancrage présentant des performances fonctionnelles élevées. Cette percée offre une approche directe pour la conception de protéines optimisées tout en apportant des éléments de compréhension des mécanismes évolutifs.

Points forts et implications

  1. Compressibilité extrême : Découverte que l’espace séquentiel protéique peut être représenté par un très petit nombre de points d’ancrage.
  2. Applicabilité multifonctionnelle : EvoScan s’applique à diverses interactions, notamment protéine-protéine, protéine-ligand et protéine-ADN.
  3. Efficacité prédictive : EvoAI traite efficacement les interactions complexes, permettant des conceptions fonctionnelles optimales.
  4. Représentations évolutives nouvelles : Soutien expérimental à l’hypothèse selon laquelle la nature peut optimiser l’évolution en compressant l’espace génotypique.

Cette avancée laisse présager un rôle important pour EvoAI dans la biologie synthétique et l’ingénierie des protéines, ainsi qu’une meilleure compréhension des mécanismes fondamentaux de l’évolution naturelle.