DeepES : Outil de criblage enzymatique basé sur l'apprentissage profond pour identifier les gènes d'enzymes orphelins
Contexte académique
Avec le développement rapide des technologies de séquençage, les scientifiques ont pu obtenir un grand nombre de séquences protéiques, y compris de nombreuses séquences enzymatiques. Cependant, bien que des bases de données enzymatiques majeures telles que Kyoto Encyclopedia of Genes and Genomes (KEGG) et BRENDA aient été établies, les informations sur les séquences de nombreuses enzymes restent manquantes. Ces enzymes, pour lesquelles les informations de séquences sont inconnues, sont appelées “enzymes orphelines” (orphan enzymes). L’existence de ces enzymes orphelines entrave sérieusement l’annotation fonctionnelle basée sur la similarité des séquences, créant ainsi un énorme fossé dans la compréhension de la relation entre les séquences et les réactions enzymatiques.
Le problème des enzymes orphelines ne se limite pas à l’absence d’informations sur les séquences, mais affecte également notre compréhension des processus biologiques. Par exemple, de nombreux processus métaboliques du microbiote intestinal humain, tels que la production d’acides gras à chaîne courte (short-chain fatty acids, SCFA), sont étroitement liés à l’inflammation intestinale et à la progression du cancer. Cependant, nombre de ces réactions impliquent des enzymes orphelines, rendant les gènes associés difficiles à identifier. Par conséquent, le développement d’une méthode indépendante de la similarité des séquences pour prédire l’activité enzymatique est essentiel pour combler ce fossé.
Source de l’article
Cet article intitulé “DeepES: Un outil de criblage enzymatique basé sur l’apprentissage profond pour identifier les gènes des enzymes orphelines” a été rédigé par Keisuke Hirota, Felix Salim et Takuji Yamada, entre autres. L’équipe de recherche est issue de l’École des sciences et technologies de la vie de l’Institut des sciences de Tokyo (School of Life Science and Technology, Institute of Science Tokyo) et a collaboré avec des entreprises telles que Metagen Inc., Metagen Therapeutics Inc. et Digzyme Inc. L’article a été publié le 6 février 2025 dans la revue Bioinformatics et est disponible en libre accès.
Processus de recherche
1. Objectif de l’étude et conception du cadre
L’objectif principal de DeepES est de développer un outil basé sur l’apprentissage profond pour identifier les gènes des enzymes orphelines. L’équipe de recherche a utilisé la “classe de réaction” (Reaction Class, RClass) comme critère de classification de l’activité enzymatique. RClass se base sur les modèles de transformation chimique des paires substrat-produit, et contrairement aux numéros de classification enzymatique (EC number) traditionnels, RClass peut traiter des réactions incomplètes, ce qui le rend plus adapté à l’identification des enzymes orphelines.
Le flux de travail de DeepES se décompose en trois étapes principales : 1. Entrée des séquences géniques : Extraction de séquences géniques continues à partir de génomes. 2. Prédiction par les classifieurs RClass : Utilisation d’un modèle d’apprentissage profond pré-entraîné (ESM-2) pour convertir les séquences protéiques en représentations vectorielles, et prédiction via un perceptron multicouche (MLP) pour déterminer si chaque gène correspond à une RClass spécifique. 3. Évaluation des clusters de gènes de biosynthèse (BGC) : Calcul de la moyenne géométrique des probabilités des gènes continus pour évaluer si ces gènes sont susceptibles de coder l’enzyme cible.
2. Jeu de données et développement du modèle
L’équipe de recherche a extrait les séquences géniques et les données RClass des organismes procaryotes de la base de données KEGG, construisant ainsi un ensemble de données d’entraînement et de test contenant 4 413 823 points de données. Pour faire face au déséquilibre des classes RClass, l’équipe a utilisé une fonction de perte pondérée et a entraîné des classifieurs binaires indépendants pour chaque RClass.
Au cours du développement du modèle, l’équipe a utilisé le modèle ESM-2, capable de convertir les séquences protéiques en représentations vectorielles de haute dimension. Ensuite, un perceptron multicouche a été utilisé pour prédire chaque RClass. Pour optimiser les performances du modèle, l’équipe a effectué un réglage des hyperparamètres, y compris le taux d’apprentissage, la taille des couches cachées et le taux de dropout.
3. Validation du modèle et tests de performance
Pour vérifier la capacité de DeepES à prédire dans des environnements à faible homologie de séquence, l’équipe a construit un petit ensemble de données de validation non redondant. En utilisant une méthode de validation croisée leave-one-out, l’équipe a découvert que DeepES pouvait prédire avec précision l’activité enzymatique sans dépendre de la similarité des séquences.
De plus, l’équipe a réalisé des tests de détection des clusters de gènes de biosynthèse (BGC), en traitant des enzymes connues comme des “pseudo-enzymes orphelines” et en testant si DeepES pouvait identifier les gènes candidats pour ces enzymes. Les résultats ont montré que DeepES excellait dans la détection des BGC, en particulier à des seuils élevés, où la fiabilité des prédictions augmentait considérablement.
4. Cas d’application : Enzymes orphelines dans le microbiote intestinal humain
L’équipe a appliqué DeepES à 4744 génomes assemblés de métagénomes (MAGs) provenant du microbiote intestinal humain, identifiant avec succès les gènes candidats pour 236 enzymes orphelines. Ces enzymes orphelines sont impliquées dans diverses voies métaboliques, notamment la production d’acides gras à chaîne courte. L’équipe a également constaté que certaines prédictions de gènes d’enzymes orphelines correspondaient étroitement à des fonctions métaboliques connues, telles que les voies liées aux composés aromatiques et aux isoprénoïdes.
Résultats et conclusions
Le développement de DeepES offre une nouvelle méthode pour identifier les gènes des enzymes orphelines. En combinant un modèle d’apprentissage profond avec les informations sur les clusters de gènes de biosynthèse, DeepES peut cribler efficacement les gènes candidats sans dépendre de la similarité des séquences. Les résultats de l’étude montrent que DeepES a une précision et une fiabilité élevées dans l’identification des gènes des enzymes orphelines, en particulier lorsqu’il s’agit de traiter des données à faible homologie de séquence.
En outre, l’application réussie de DeepES a révélé les gènes potentiels de nombreuses voies métaboliques inconnues dans le microbiote intestinal humain, en particulier ceux liés à la production d’acides gras à chaîne courte. Ces découvertes contribuent non seulement à la compréhension des fonctions métaboliques du microbiote intestinal, mais ouvrent également de nouvelles pistes de recherche pour le traitement des maladies associées.
Points forts de l’étude
- Cadre innovant d’apprentissage profond : DeepES est le premier à combiner un modèle d’apprentissage profond avec les informations sur les clusters de gènes de biosynthèse, offrant une nouvelle solution pour l’identification des gènes des enzymes orphelines.
- Classifieur RClass efficace : Grâce à des classifieurs binaires RClass indépendants, DeepES peut prédire avec précision l’activité enzymatique sans dépendre de la similarité des séquences.
- Large potentiel d’application : DeepES est non seulement applicable aux procaryotes, mais a également le potentiel d’être utilisé pour les plantes et les champignons, ouvrant un vaste champ d’application pour les recherches futures.
- Combler le fossé entre séquences et fonctions : L’application réussie de DeepES fournit un outil important pour comprendre la relation entre les données de séquences et les fonctions biologiques, en particulier dans le traitement des gènes des enzymes orphelines.
Valeur et signification de l’étude
Le développement de DeepES a non seulement une valeur scientifique importante, mais offre également de nouveaux outils pour la recherche en biotechnologie et en médecine. En identifiant les gènes des enzymes orphelines, les scientifiques peuvent mieux comprendre la complexité des voies métaboliques, en particulier dans des domaines comme le microbiote intestinal humain. De plus, l’application réussie de DeepES ouvre de nouvelles pistes de recherche pour le développement de médicaments et le traitement des maladies, en particulier celles liées au métabolisme, telles que l’inflammation intestinale et le cancer.
DeepES fournit une solution importante pour combler le fossé entre les données de séquences et les fonctions biologiques, ouvrant de nouvelles voies pour les recherches futures.