Un modèle de diffusion conditionnelle de protéines génère des séquences artificielles d'endonucléases programmables avec une activité accrue

Conception assistée par apprentissage profond de protéines : génération de séquences fonctionnelles grâce à un modèle de diffusion conditionnelle

Les protéines constituent un élément central des recherches et applications en sciences de la vie, leur diversité et complexité fonctionnelle offrant aux scientifiques une infinité de possibilités. Avec l’avènement des technologies d’apprentissage profond, la conception des protéines atteint de nouveaux sommets. L’étude intitulée « A conditional protein diffusion model generates artificial programmable endonuclease sequences with enhanced activity », publiée par une équipe de chercheurs de l’Université de Shanghai Jiao Tong, de l’Université de Cambridge et d’autres institutions, présente une méthode novatrice baptisée modèle de diffusion conditionnelle des protéines (en anglais, Conditional Protein Diffusion Model ou CPDiffusion). Ce modèle est utilisé pour concevoir des séquences artificielles de protéines avec des fonctionnalités améliorées. Publiée dans la revue Cell Discovery, cette recherche marque une avancée majeure dans les domaines de l’ingénierie des protéines et de la biomédecine.

Contexte et objectifs de l’étude

Ces dernières années, l’apprentissage profond a démontré son potentiel dans la conception fonctionnelle des protéines. Les méthodes traditionnelles de conception s’appuient sur des modèles expérimentaux et théoriques complexes, mais elles sont limitées par des besoins en données volumineux, des coûts d’entraînement élevés et des cycles d’optimisation longs, en particulier pour des protéines complexes à domaines multiples. Les modèles d’apprentissage profond offrent une approche axée sur les données pour explorer rapidement l’espace potentiel des séquences protéiques.

L’équipe de recherche s’est concentrée sur les protéines Argonaute procaryotes (PAgos), qui sont largement utilisées en biotechnologie pour leurs fonctions de découpe ADN ciblée. Cependant, ces protéines souffrent d’une faible activité enzymatique à température ambiante. L’objectif était d’exploiter un modèle basé sur l’apprentissage profond pour générer des séquences artificielles de PAgos améliorées, optimisant leur stabilité et efficacité pour une utilisation plus étendue.

Méthodologie et innovations techniques

1. Conception du modèle de diffusion conditionnelle

Le cœur de cette recherche repose sur CPDiffusion, un modèle de génération de séquences protéiques basé sur le principe de « diffusion-débruitage ». Voici ses principaux aspects :

  • Architecture du modèle : Le modèle s’appuie sur des réseaux convolutifs graphiques équivariants (Equivariant Graph Convolutional Networks), intégrant les propriétés biochimiques et topologiques des protéines.
  • Contraintes conditionnelles : Pendant l’entraînement, le modèle intègre des structures secondaires, des gabarits moléculaires et des acides aminés hautement conservés pour guider la génération des séquences.
  • Données d’entraînement : Le modèle a été entraîné sur environ 700 protéines Argonaute de type sauvage (WT) et 20 000 séquences issues de familles protéiques diversifiées, apprenant ainsi les relations « séquence-structure-fonction » nécessaires à la conception.

2. Génération et sélection des séquences

Deux protéines PAgos ont servi de gabarits : Kurthia massiliensis Ago (KmAgo) et Pyrococcus furiosus Ago (PfAgo). Pour chaque protéine, le modèle a généré respectivement 27 et 15 séquences artificielles. Les étapes suivantes ont été mises en œuvre :

  • Filtrage initial : Les structures générées ont été évaluées avec AlphaFold2 selon des critères de cohérence structurelle (scores PLDDT, TM et RMSD).
  • Validation expérimentale : Les protéines candidates ont été testées pour leur solubilité, leur activité de découpe ADN, et leur stabilité thermique.

Résultats principaux

1. Protéines artificielles aux fonctions améliorées

Les tests ont révélé que les protéines générées présentaient des performances nettement supérieures à leurs homologues WT :

  • KmAgo : Parmi les 27 KmAgo artificiels (Km-APs), 24 ont montré une activité de découpe de l’ADN simple brin (ssDNA), dont 20 avec des performances supérieures au KmAgo WT. La meilleure protéine a démontré une activité 9 fois supérieure à celle du WT.
  • PfAgo : Les 15 PfAgo artificiels (Pf-APs) ont montré une activité de découpe ssDNA à 45°C. Six d’entre eux ont surpassé l’activité du PfAgo WT même à des températures élevées (95°C).

2. Stabilité thermique et performances

  • Km-APs : Dix protéines ont montré une meilleure stabilité thermique que le WT tout en conservant une forte activité enzymatique à haute température.
  • Pf-APs : Bien que leur point de fusion ait diminué (50°C contre 100°C pour le WT), ces protéines ont montré des performances accrues à des températures modérées, élargissant ainsi leur domaine d’application.

3. Diversité et conservation des séquences

Les séquences générées se caractérisent par une diversité élevée (50-70 % de similarité avec le WT) tout en conservant des motifs catalytiques essentiels. Ces résultats confirment l’efficacité de CPDiffusion à explorer de nouveaux espaces séquentiels.

Implications et perspectives d’application

L’étude marque une avancée significative dans la conception de protéines assistée par l’apprentissage profond. CPDiffusion offre une méthode performante et peu gourmande en données pour générer des séquences protéiques complexes. Les applications potentielles incluent :

  1. Diagnostic moléculaire et détection des maladies : Les PAgos améliorés pourraient détecter avec précision des acides nucléiques liés à des pathologies.
  2. Thérapie génique et édition de gènes : Les nouvelles protéines PAgos pourraient servir à des interventions thérapeutiques ciblées.
  3. Biotechnologies environnementales et industrielles : Ces protéines stables et performantes seraient utiles dans des conditions environnementales exigeantes.

Conclusion

Le modèle CPDiffusion ouvre de nouvelles perspectives pour l’ingénierie des protéines complexes. En surmontant les limites des approches traditionnelles, il met en avant le potentiel des technologies d’apprentissage profond dans les sciences biologiques. Avec de futures améliorations, ces méthodes pourraient transformer la recherche biomédicale et biotechnologique.