FlowPacker : Empaquetage des chaînes latérales des protéines avec correspondance de flux torsionnel
La structure tridimensionnelle des protéines est déterminée par leur séquence d’acides aminés, et la fonction des protéines dépend fortement de leur structure tridimensionnelle. Les conformations des chaînes latérales des protéines (side-chain conformations) jouent un rôle crucial dans le repliement des protéines, les interactions protéine-protéine et la conception de nouvelles protéines (de novo protein design). La prédiction précise des conformations des chaînes latérales des protéines est essentielle pour comprendre les mécanismes de repliement des protéines, concevoir de nouvelles protéines et étudier les interactions protéiques. Cependant, les modèles traditionnels basés sur la physique (physics-based modeling) reposent sur des fonctions de score empiriques (empirical scoring functions), des bibliothèques de rotamères discrets (discrete rotamer libraries) et des méthodes d’échantillonnage de Monte Carlo par chaînes de Markov (MCMC), qui, en raison de leur inefficacité de recherche et de l’imprécision des fonctions de score, peinent souvent à atteindre des résultats idéaux.
Ces dernières années, l’intelligence artificielle a réalisé des progrès significatifs dans les domaines de la prédiction et de la conception des structures protéiques. En particulier, les modèles d’apprentissage profond, tels qu’AlphaFold et DiffPack, ont démontré des performances supérieures dans la tâche de prédiction des conformations des chaînes latérales des protéines (side-chain packing). Néanmoins, les méthodes existantes laissent encore à désirer en termes de temps d’exécution et de précision. Pour remédier à cela, Jin Sub Lee et Philip M. Kim ont développé FlowPacker, un modèle basé sur le torsional flow matching (appariement de flux torsionnel) et les réseaux d’attention graphique équivariants (equivariant graph attention networks), visant à améliorer la précision et l’efficacité de la prédiction des conformations des chaînes latérales des protéines.
Source de l’article
Cet article a été co-écrit par Jin Sub Lee et Philip M. Kim, respectivement affiliés au Département de génétique moléculaire et au Département d’informatique de l’Université de Toronto, au Canada. L’article a été publié le 9 janvier 2025 dans la revue Bioinformatics, sous le titre “FlowPacker: Protein Side-Chain Packing with Torsional Flow Matching”. Le code et les données de l’article sont disponibles publiquement sur GitLab, à l’usage des communautés académiques et industrielles.
Processus de recherche
1. Conception du modèle
Le cœur de FlowPacker repose sur le torsional flow matching (appariement de flux torsionnel) et les réseaux d’attention graphique équivariants (equivariant graph attention networks). Le torsional flow matching est un nouveau paradigme de modélisation générative qui permet d’entraîner des flux de normalisation continue (continuous normalizing flows, CNFs) sans simulation, offrant des performances supérieures et une convergence plus rapide que les modèles de diffusion traditionnels (diffusion models). FlowPacker définit un cadre de torsional flow matching sur un tore de haute dimension (high-dimensional torus) pour générer les conformations des chaînes latérales des protéines.
2. Préparation des données
L’étude a utilisé deux ensembles de données pour l’entraînement : le BC40 dataset et le PDB-S40 dataset. Le BC40 dataset contient des structures PDB avec une similarité de séquence de 40 %, tandis que le PDB-S40 dataset est extrait d’un instantané PDB daté du 28 juillet 2023, regroupant des structures de protéines monomériques avec une similarité de séquence de 40 %. Les ensembles de test ont utilisé les structures protéiques cibles de CASP13, CASP14 et CASP15.
3. Entraînement du modèle
L’architecture de FlowPacker est basée sur EquiformerV2, avec un moment angulaire maximal (lmax) de 3, une dimension de canal de 256, et un total de 18 millions de paramètres entraînables. Le modèle a été entraîné sur 4 GPU NVIDIA A100 pendant 300 époques, pour un temps total d’entraînement d’environ 6 jours. Pendant l’entraînement, le modèle optimise la fonction de perte en prédisant le champ vectoriel conditionnel (conditional vector field), générant finalement les conformations des chaînes latérales des protéines.
4. Stratégie d’inférence
Lors de l’inférence, FlowPacker utilise un calendrier exponentiel (exponential schedule) et un solveur d’Euler (Euler solver) pour générer les conformations des chaînes latérales. L’étude a également développé un modèle de confiance (confidence model) pour sélectionner l’échantillon avec l’erreur de prédiction la plus faible.
Résultats principaux
1. Évaluation des performances
FlowPacker a surpassé les autres modèles de référence sur les ensembles de test CASP13, CASP14 et CASP15, y compris le modèle basé sur la physique Rosetta et les modèles d’apprentissage profond AttnPacker et DiffPack. FlowPacker a obtenu les meilleurs résultats sur des métriques telles que l’erreur absolue moyenne des angles (angle MAE), la précision des angles (angle accuracy) et l’écart quadratique moyen des atomes (atom RMSD).
2. Réparation des chaînes latérales
FlowPacker a également démontré sa capacité dans la tâche de réparation partielle des chaînes latérales (inpainting). En masquant aléatoirement (masking) de 5 % à 75 % des résidus, FlowPacker a pu générer des conformations précises des chaînes latérales en fonction du contexte structurel fourni, montrant son potentiel d’application dans la conception de protéines.
3. Complexes multichaines
Bien que FlowPacker ait été principalement entraîné sur des protéines monomériques, l’étude a également testé ses performances sur des complexes anticorps-antigène (antibody-antigen complexes). Les résultats ont montré que FlowPacker surpassait Rosetta dans les tâches de prédiction des chaînes latérales pour la région CDRH3 et la chaîne variable complète (full variable chain, FV), indiquant sa capacité à s’étendre à la prédiction des chaînes latérales dans les complexes multichaines.
Conclusion et signification
FlowPacker, en introduisant le torsional flow matching et les réseaux d’attention graphique équivariants, a considérablement amélioré la précision et l’efficacité de la prédiction des conformations des chaînes latérales des protéines. Ce modèle excelle non seulement sur les protéines monomériques, mais est également capable de traiter des tâches de réparation partielle des chaînes latérales et de prédiction sur des complexes multichaines, démontrant son large potentiel d’application dans la conception de protéines et la biologie structurale.
Points forts de l’étude
- Nouveau cadre de torsional flow matching : FlowPacker est le premier à appliquer le torsional flow matching à la tâche de prédiction des chaînes latérales des protéines, offrant une méthode de modélisation générative plus efficace.
- Réseaux d’attention graphique équivariants : En utilisant EquiformerV2, FlowPacker capture mieux les symétries des structures protéiques, améliorant l’expressivité du modèle.
- Capacités multitâches : FlowPacker excelle non seulement sur les protéines monomériques, mais peut également traiter des tâches de réparation partielle des chaînes latérales et de prédiction sur des complexes multichaines, montrant ses vastes perspectives d’application.
Perspectives futures
L’équipe de recherche a proposé plusieurs orientations futures, notamment l’amélioration de la prédiction des effets des mutations par l’apprentissage non supervisé ou supervisé, l’alignement des modèles génératifs à l’aide de données de préférence (preference data) pour augmenter la plausibilité biophysique, et l’exploration de nouvelles méthodes de représentation des conformations des chaînes latérales. De plus, les performances de FlowPacker pourraient être encore améliorées par l’échantillonnage autorégressif (autoregressive sampling) et l’analyse d’incertitude (uncertainty analysis).
FlowPacker offre une solution efficace et précise pour la tâche de prédiction des chaînes latérales des protéines, jetant les bases solides pour la conception de protéines et la recherche en biologie structurale à l’avenir.