Un modèle de langage pour la région 5' UTR pour décoder les régions non traduites de l'ARNm et les prévisions de fonction
La région 5’ non traduite (5’UTR) est une région régulatrice à l’extrémité des molécules d’ARN messager (ARNm), jouant un rôle clé dans la régulation du processus de traduction et l’influence sur les niveaux d’expression des protéines. Les modèles langagiers ont démontré leur efficacité pour décoder les séquences protéiques et génomiques. Dans cette étude, les auteurs présentent un modèle de langage pour le 5’UTR, appelé UTR-LM.
Contexte de la recherche En effet, le 5’UTR joue un rôle important dans la régulation de la traduction de l’ARNm, influençant la stabilité, la localisation et l’efficacité de traduction de l’ARNm. De nombreuses études ont exploré les caractéristiques biologiques du 5’UTR, notamment sa structure secondaire, les protéines de liaison à l’ARN potentiellement impliquées, et l’impact des mutations du 5’UTR sur l’expression génique. Les fonctions complexes de l’ARNm et leurs impacts potentiels sur la santé humaine soulignent la nécessité de développer des méthodes computationnelles plus généralisables.
Source de la recherche Cette recherche est le fruit d’une collaboration entre le groupe du professeur Mengdi Wang du département de génie électrique et informatique de l’Université de Princeton, le laboratoire du professeur Le Cong du département de pathologie de l’Université de Stanford, ainsi que des chercheurs de RVAC Medicines et ZipCode Bio. L’article a été publié dans le numéro d’avril 2024 de la revue Nature Machine Intelligence.
Processus et méthodes de recherche (a) Flux de travail de la recherche : Cette étude a adopté le flux de travail suivant : 1) Collecte et prétraitement des séquences 5’UTR endogènes de plusieurs espèces, des séquences 5’UTR issues de bibliothèques synthétiques, et des données 5’UTR endogènes humaines ; 2) Développement d’un modèle de langage basé sur Transformer, UTR-LM, et pré-entraînement auto-supervisé sur ces données, comprenant la reconstruction de nucléotides masqués, la prédiction de structures secondaires et la prédiction d’énergie libre minimale ; 3) Adaptation d’UTR-LM à des tâches en aval, comme la prédiction de la charge ribosomique moyenne (MRL), la prédiction de l’efficacité de traduction de l’ARNm (TE), la prédiction des niveaux d’expression de l’ARNm (EL) et la reconnaissance des sites d’entrée ribosomique interne (IRES) non annotés ; 4) Conception et synthèse d’une bibliothèque de 211 séquences 5’UTR avec une TE prédite élevée, et validation expérimentale (transfection d’ARNm et tests de luciférase) de leurs performances ; 5) Analyse des scores d’attention du modèle de langage, révélant des motifs génomiques connus et potentiellement nouveaux.
(b) Principaux résultats de la recherche : 1) Pour la tâche de prédiction de MRL, UTR-LM a amélioré le coefficient de corrélation de Spearman de 5% par rapport à la meilleure méthode de référence ; 2) Pour les tâches de prédiction de TE et EL, UTR-LM a amélioré le coefficient de corrélation de Spearman jusqu’à 8% par rapport à la meilleure méthode de référence ; 3) Pour la tâche de reconnaissance d’IRES, UTR-LM a fait passer la surface sous la courbe Précision-Rappel de 0,37 à 0,52, dépassant la meilleure méthode de référence ; 4) La validation expérimentale a montré que les meilleures séquences 5’UTR de la bibliothèque conçue permettaient d’augmenter la production de protéines de 32,5% par rapport au 5’UTR optimisé largement utilisé en clinique (NCA-7d-5’UTR) ; 5) Sur un ensemble de données expérimentales indépendant, UTR-LM a dépassé le coefficient de corrélation de Spearman de la meilleure méthode de référence de 51% pour la prédiction des résultats expérimentaux sans pré-entraînement ; 6) L’étude a révélé des motifs régulateurs connus, comme la séquence Kozak et la corrélation positive entre la teneur en GC et l’efficacité de traduction, ainsi que de potentiels nouveaux motifs.
© Conclusions de la recherche : Cette étude propose un nouveau modèle de langage auto-supervisé, UTR-LM, pour étudier le 5’UTR de l’ARNm et décoder ses fonctions, démontrant des performances supérieures dans la prédiction de MRL, TE, EL et la reconnaissance d’IRES. L’étude a également conçu et validé expérimentalement un ensemble de séquences 5’UTR hautement efficaces. Ces travaux devraient faire progresser notre compréhension de la régulation génique et ouvrir de nouvelles perspectives thérapeutiques.
Importance de la recherche 1) Valeur scientifique : Cette étude propose un modèle computationnel efficace pour décoder les fonctions biologiques du 5’UTR, fournissant de nouveaux aperçus et outils pour approfondir notre compréhension des mécanismes de régulation de l’ARNm dans la biosynthèse des protéines. 2) Valeur applicative : Les séquences 5’UTR hautement efficaces conçues dans cette étude pourraient être appliquées à la production biotechnologique et thérapeutique de protéines, optimisant ainsi leur rendement. 3) Caractéristiques de la recherche : Proposition d’un modèle de langage intégrant les séquences, les structures secondaires et l’énergie libre minimale ; conception et validation expérimentale de séquences 5’UTR performantes ; révélation de motifs régulateurs connus et nouveaux.
Cette étude fournit une nouvelle approche par modèle de langage pour comprendre et optimiser les fonctions du 5’UTR, présentant une valeur scientifique importante et des perspectives d’application prometteuses. C’est une contribution innovante dans le domaine de la régulation de l’ARNm.