Prédiction et analyse complètes de l'essentialité des protéines humaines sur la base d'un modèle de langage pré-entrainé
Prédiction et analyse complète de l’essentialité des protéines humaines basée sur un modèle de langage pré-entraîné
Contexte académique
Les protéines essentielles humaines (Human Essential Proteins, HEPs) sont cruciales pour la survie et le développement des individus. Cependant, les méthodes expérimentales pour identifier les HEPs sont souvent coûteuses, longues et laborieuses. De plus, les méthodes informatiques existantes prédisent les HEPs uniquement au niveau des lignées cellulaires, alors que les HEPs varient entre les humains vivants, les lignées cellulaires et les modèles animaux. Par conséquent, il est essentiel de développer une méthode informatique capable de prédire de manière exhaustive les HEPs à plusieurs niveaux. Récemment, les modèles de langage de grande taille (Large Language Models, LLMs) ont connu un succès remarquable dans le domaine du traitement du langage naturel, et les modèles de langage de protéines (Protein Language Models, PLMs) ont également émergé grâce à leur capacité à être pré-entraînés sur de vastes séquences protéiques. Cependant, il reste inconnu si les PLMs peuvent améliorer de manière significative la tâche de prédiction de l’essentialité des protéines.
Source de l’article
Cet article a été rédigé par Boming Kang, Rui Fan, Chunmei Cui et Qinghua Cui, ce dernier étant l’auteur correspondant. L’équipe est issue du Département d’informatique biomédicale de l’École de médecine fondamentale de l’Université de Pékin et de l’École de médecine sportive de l’Institut d’éducation physique de Wuhan. L’article a été publié en 2024 dans la revue Nature Computational Science.
Processus de recherche
Collecte de données
L’équipe de recherche a collecté des données sur l’essentialité des protéines à partir de plusieurs bases de données publiques, notamment gnomad, ogee-mgi et Project Score. Ces données ont été utilisées pour entraîner des modèles au niveau humain (pic-human), murin (pic-mouse) et des lignées cellulaires (pic-cell). Plus précisément :
- Niveau humain : 65 057 séquences protéiques et leurs valeurs LOEUF (Loss of Function Observed/Expected Upper Bound Fraction) ont été obtenues à partir de la base de données gnomad, avec 14 146 échantillons positifs et 50 911 échantillons négatifs.
- Niveau murin : 6 050 séquences protéiques humaines et leurs étiquettes d’essentialité correspondantes chez la souris ont été obtenues à partir de la base de données ogee, avec 443 échantillons positifs et 5 607 échantillons négatifs.
- Niveau des lignées cellulaires : Les étiquettes d’essentialité de 17 185 séquences protéiques dans 323 lignées cellulaires humaines différentes ont été obtenues à partir de la base de données Project Score.
Architecture du modèle
L’équipe de recherche a développé un modèle d’apprentissage profond appelé Protein Importance Calculator (PIC), qui prédit l’essentialité des protéines en affinant un modèle de langage de protéines (PLM) pré-entraîné. Le modèle PIC comprend trois modules principaux :
- Module d’embedding : Utilise le modèle ESM-2 pour convertir les séquences protéiques en vecteurs de caractéristiques numériques de dimension fixe.
- Module d’attention : Capture l’importance des acides aminés à différentes positions dans la séquence protéique grâce à un mécanisme d’attention multi-têtes.
- Module de prédiction : Utilise un perceptron multicouche (MLP) pour générer la probabilité prédite de la séquence protéique.
Évaluation des performances du modèle
L’équipe de recherche a utilisé des métriques telles que l’exactitude, le rappel, la précision, le score F1, l’aire sous la courbe ROC (AUROC) et l’aire sous la courbe PR (AUPRC) pour évaluer les performances du modèle PIC. Les résultats montrent que le modèle pic-human a obtenu l’AUROC le plus élevé, atteignant 0,9132, suivi par le modèle pic-mouse avec un AUROC de 0,8736, et le modèle pic-cell avec un AUROC médian de 0,8579. Par rapport aux méthodes existantes, PIC a considérablement amélioré les performances de prédiction.
Score d’essentialité des protéines (Protein Essential Score, PES)
L’équipe de recherche a défini le score d’essentialité des protéines (PES) basé sur les valeurs de probabilité générées par le modèle PIC, et a validé son efficacité à travers une série d’analyses biologiques. Le PES montre une corrélation positive significative avec des indicateurs biologiques tels que le degré des nœuds dans le réseau d’interaction protéique, les niveaux d’expression dans les tissus normaux et cancéreux, phylop, phastcons et le nombre de maladies associées.
Analyse inter-niveaux
L’équipe de recherche a également utilisé le PES pour mener des analyses inter-niveaux, révélant des différences significatives dans l’essentialité des protéines entre les niveaux humains, des lignées cellulaires et murins. Par exemple, des différences marquées dans l’essentialité des protéines ont été observées entre les tumeurs non solides (comme la leucémie myéloïde aiguë) et les tumeurs solides (comme le cancer du sein). En outre, l’équipe a identifié certaines protéines présentant une essentialité élevée dans des tissus spécifiques.
Études de cas
L’équipe de recherche a validé le potentiel du PES pour découvrir des biomarqueurs pronostiques à travers une étude de cas sur le cancer du sein. Les résultats montrent que huit des dix protéines sélectionnées via le PES peuvent prédire efficacement la survie des patientes atteintes de cancer du sein dans plusieurs cohortes cliniques. De plus, l’équipe a utilisé le PES pour quantifier l’essentialité de 617 462 microprotéines humaines, constatant que les microprotéines hautement essentielles sont principalement impliquées dans des processus biologiques fondamentaux tels que la division cellulaire, la respiration cellulaire et la réplication de l’ADN.
Conclusion et signification
Le modèle PIC, en affinant un modèle de langage de protéines pré-entraîné, a considérablement amélioré les performances de prédiction de l’essentialité des protéines humaines et a fourni des résultats de prédiction complets à trois niveaux : humain, lignées cellulaires et murin. Le PES défini par l’équipe de recherche offre non seulement une métrique efficace pour quantifier l’essentialité des protéines, mais peut également être utilisé pour découvrir des biomarqueurs pronostiques potentiels et des cibles thérapeutiques. À l’avenir, le modèle PIC devrait jouer un rôle important dans des domaines tels que la découverte de médicaments, les traitements cliniques et la biologie synthétique.
Points forts de la recherche
- Amélioration significative des performances de prédiction : Le modèle PIC surpasse les méthodes existantes aux niveaux humain, des lignées cellulaires et murin.
- Analyse inter-niveaux : L’équipe a pour la première fois analysé de manière systématique les différences d’essentialité des protéines à plusieurs niveaux.
- Score d’essentialité des protéines (PES) : Le PES fournit une métrique efficace pour quantifier l’essentialité des protéines et a démontré son utilité dans les analyses biologiques et les validations cliniques.
- Validation par études de cas : L’étude de cas sur le cancer du sein a validé le potentiel du PES pour découvrir des biomarqueurs pronostiques et des cibles thérapeutiques.
Informations complémentaires
L’équipe de recherche a également développé un serveur Web convivial (http://www.cuilab.cn/pic) permettant aux chercheurs de saisir des séquences protéiques candidates et d’obtenir leurs résultats de prédiction d’essentialité à différents niveaux. Ce serveur, basé sur Python 3, Flask et NumPy, offre une interface utilisateur simple et des fonctionnalités de téléchargement des résultats.