MostPlas : un modèle d'apprentissage multi-label auto-correctif pour la prédiction de la gamme d'hôtes des plasmides

Les plasmides sont de petites molécules d’ADN circulaires à double brin présentes dans les bactéries, indépendantes de l’ADN chromosomique. Ils aident les bactéries hôtes à acquérir des traits bénéfiques tels que la résistance aux antibiotiques et aux métaux par le transfert horizontal de gènes. Certains plasmides peuvent se transférer, se répliquer ou persister dans de multiples microorganismes. Ces plasmides sont appelés plasmides à large spectre d’hôtes (broad-host-range plasmids, BHR plasmids). Prédire avec précision le spectre d’hôtes des plasmides BHR est essentiel pour comprendre comment les plasmides favorisent l’évolution bactérienne, la propagation des gènes de résistance et le développement de vecteurs recombinants. Cependant, l’absence de bases de données fournissant des étiquettes détaillées sur le spectre d’hôtes des plasmides BHR pose un défi pour les modèles d’apprentissage automatique. Le manque d’échantillons annotés suffisants rend difficile l’extraction de représentations de caractéristiques efficaces, limitant ainsi la précision des prédictions.

Pour résoudre ce problème, l’équipe de Wei Zou, Yongxin Ji, Jiaojiao Guan et Yanni Sun du Département de génie électrique de la City University of Hong Kong a proposé un modèle d’apprentissage multi-labels auto-corrigé appelé MostPlas pour prédire le spectre d’hôtes des plasmides. Cette recherche, intitulée “MostPlas: A Self-Correction Multi-Label Learning Model for Plasmid Host Range Prediction”, a été publiée dans la revue Bioinformatics le 17 février 2025.

Processus et méthodes de recherche

1. Objectifs et défis

L’objectif de MostPlas est de prédire le spectre d’hôtes des plasmides, en particulier pour les plasmides BHR, en utilisant un modèle d’apprentissage multi-labels. Les principaux défis incluent : - Annotations incomplètes : Les bases de données existantes (comme NCBI RefSeq) ne fournissent que les étiquettes des hôtes à partir desquels les plasmides ont été isolés, manquant ainsi d’informations complètes sur le spectre d’hôtes. - Déséquilibre des étiquettes : Le nombre de bactéries non-hôtes pour chaque plasmide dépasse largement celui des hôtes réels, ce qui entraîne une attention excessive sur les étiquettes négatives lors de l’entraînement du modèle, au détriment de la reconnaissance des étiquettes positives.

2. Conception du modèle MostPlas

L’innovation centrale de MostPlas réside dans la conception d’un algorithme de génération de pseudo-étiquettes et d’une fonction de perte asymétrique auto-corrigée pour surmonter ces défis.

2.1 Algorithme de génération de pseudo-étiquettes

L’algorithme de génération de pseudo-étiquettes exploite les informations de distribution des protéines codées par les plasmides pour attribuer des étiquettes d’hôtes supplémentaires crédibles aux échantillons d’entraînement. Les étapes spécifiques sont les suivantes : 1. Préparation des données : Téléchargement de toutes les séquences de plasmides de la base de données NCBI RefSeq, filtrage des séquences au niveau du génome complet, et élimination des hôtes non bactériens et des genres (genus) avec moins de 10 échantillons. 2. Clustering des protéines : Utilisation de Prodigal pour la prédiction des gènes et la traduction, puis application de CD-HIT pour regrouper les séquences protéiques (seuil de similarité de 0,9), générant ainsi des clusters de protéines (protein cluster, PC). 3. Évaluation de la significativité : Conception d’une méthode de score améliorée basée sur TF-IDF, appelée TF-IDFpro, pour évaluer la significativité de chaque PC pour différents genres d’hôtes. 4. Attribution des pseudo-étiquettes : Attribution d’étiquettes d’hôtes supplémentaires aux échantillons d’entraînement en fonction des scores TF-IDFpro des protéines codées par les plasmides.

2.2 Fonction de perte asymétrique auto-corrigée

La fonction de perte d’entropie croisée binaire traditionnelle traite de manière égale la contribution des étiquettes positives et négatives lors de l’entraînement. La fonction de perte asymétrique auto-corrigée ajuste l’entraînement du modèle de la manière suivante : - Dominance des étiquettes positives : Augmentation du poids des étiquettes positives et réduction de l’impact des étiquettes négatives. - Reconnaissance adaptative des étiquettes manquantes : Reconnaissance adaptative des étiquettes positives potentiellement manquantes au cours de l’entraînement, optimisant ainsi les limites de décision du modèle.

3. Expériences et résultats

L’équipe a mené des expériences sur plusieurs ensembles de données, notamment la base de données NCBI RefSeq, la base de données PLSDB 2025, des séquences de plasmides avec des étiquettes d’hôtes déterminées expérimentalement, l’ensemble de données Hi-C et l’ensemble de données DoriC. Les résultats expérimentaux montrent que MostPlas identifie davantage d’étiquettes d’hôtes tout en maintenant une haute précision.

3.1 Ensemble de test de plasmides multi-hôtes

Sur les bases de données NCBI RefSeq et PLSDB 2025, le rappel (recall) et le score F1 de MostPlas surpassent significativement ceux des autres outils. Par exemple, sur l’ensemble de données RefSeq, le rappel de MostPlas a augmenté de 5,7 % et le score F1 de 5,0 %.

3.2 Plasmides avec des hôtes déterminés expérimentalement

Sur l’ensemble de données MOB-suite, les prédictions de MostPlas chevauchent celles des autres outils à hauteur de 89,2 %, ce qui indique une fiabilité élevée des prédictions.

3.3 Analyse des caractéristiques biologiques

L’analyse de l’ensemble de données DoriC a révélé que les plasmides avec plusieurs étiquettes d’hôtes ont souvent plusieurs réplicons (replicons), fournissant ainsi des indices pour mieux comprendre les mécanismes d’adaptation des plasmides à leurs hôtes.

Conclusions et importance de la recherche

MostPlas est la première étude à appliquer un modèle d’apprentissage multi-labels à la prédiction du spectre d’hôtes des plasmides. Ses innovations résident dans la résolution des problèmes d’annotations incomplètes et de déséquilibre des étiquettes grâce à un algorithme de génération de pseudo-étiquettes et une fonction de perte asymétrique auto-corrigée. Les résultats expérimentaux montrent que MostPlas excelle sur plusieurs ensembles de données, en particulier dans la reconnaissance des plasmides multi-hôtes.

Valeur scientifique et applicative

  • Valeur scientifique : MostPlas offre un nouvel outil et une nouvelle méthode pour étudier les mécanismes d’adaptation des plasmides à leurs hôtes, le transfert horizontal de gènes et la propagation des gènes de résistance.
  • Valeur applicative : Le modèle peut être utilisé pour prédire le spectre d’hôtes des plasmides nouvellement découverts, aider au développement de vecteurs recombinants basés sur les plasmides et analyser les microbiomes environnementaux.

Points forts de la recherche

  • Algorithme de génération de pseudo-étiquettes : Grâce à l’exploitation des informations sur la distribution des protéines codées par les plasmides, des pseudo-étiquettes de haute qualité sont générées, améliorant significativement les performances du modèle.
  • Fonction de perte asymétrique auto-corrigée : En ajustant le poids des étiquettes positives et négatives, le problème de déséquilibre des étiquettes est résolu, et les étiquettes manquantes sont reconnues de manière adaptative.
  • Validation sur plusieurs ensembles de données : Une validation extensive sur plusieurs ensembles de données publics démontre la robustesse et la généralisabilité du modèle.

Directions futures de recherche

Bien que MostPlas ait fait des progrès significatifs dans la prédiction du spectre d’hôtes des plasmides, il reste des pistes d’amélioration. Par exemple, des recherches futures pourraient explorer comment les origines de réplication (origin of replication), les transposons (transposons) et d’autres gènes mobiles influencent l’adaptation des plasmides à leurs hôtes, afin d’améliorer encore la précision des prédictions. De plus, l’application de MostPlas à des séquences de plasmides incomplètes (comme les contigs de plasmides) est une direction prometteuse à explorer.