mRNAの非翻訳領域とその機能予測をデコーディングするための5'UTR言語モデル

5’非翻訳領域(5’UTR)はメッセンジャーRNA(mRNA)分子の開始端にある調節領域であり、翻訳プロセスの調節およびタンパク質発現レベルに影響を与える重要な役割を果たします。言語モデルはタンパク質と遺伝子配列の機能を解読する有効性を示してきました。この研究では、著者らは5’UTRに特化した言語モデル、UTR-LMを紹介しています。

研究背景 実際、5’UTRはmRNAの翻訳過程の調節において重要な役割を果たし、mRNAの安定性、局在、翻訳効率に影響を与えます。これまでに多くの研究が、5’UTRの生物学的特性、二次構造、相互作用するRNAタンパク質、5’UTR変異体の遺伝子発現への影響などを探求してきました。mRNAの複雑な機能とそれが人間の健康に与える潜在的な影響から、より一般的に適用可能な計算手法の開発が求められています。 研究の流れ

研究の出所 本研究は、プリンストン大学電気・コンピューター工学科のMengdi Wang教授の研究室、スタンフォード大学病理学科のLe Cong教授の研究室、RVAC Medicines社、ZipCode Bio社の研究者たちによる共同研究です。この論文は2024年4月のNature Machine Intelligence誌に掲載されました。

研究の流れと手法 (a)研究の流れ: 本研究では以下のような流れで行われました: 1)複数の生物種由来の内在性5’UTR配列、合成ライブラリの5’UTR配列、内在性ヒト5’UTRデータを収集・前処理した。 2)Transformerベースの言語モデルUTR-LMを開発し、上記のデータで自己教師あり事前学習を行った。タスクには核酸塩基のマスクと再構築、二次構造予測、自由エネルギー最小化などがある。 3)下流タスクでUTR-LMを微調整した。タスクには平均リボソーム負荷(MRL)予測、mRNA翻訳効率(TE)予測、mRNA発現レベル(EL)予測、未アノテーションの内部リボソーム入り込み配列(IRES)検出などがある。
4)高TE予測の211の5’UTR配列ライブラリを設計・合成し、湿式実験(mRNA導入とルシフェラーゼアッセイ)でそれらの性能を検証した。 5)言語モデルの注目度スコアを分析し、既知のゲノム配列パターンと新たな潜在的パターンを明らかにした。

(b)主な研究結果: 1) MRL予測タスクでは、UTR-LMはベースラインよりもSpearmanの相関係数が5%向上した。 2) TE/EL予測タスクでは、UTR-LMはベースラインよりもSpearmanの相関係数が最大8%向上した。 3) IRES検出タスクでは、UTR-LMはArea Under Precision-Recall Curveを0.37から0.52に改善し、ベースラインを上回った。 4) 実験検証では、設計ライブラリの上位5’UTR配列は、広く使われている最適化5’UTR(NCA-7d-5’UTR)と比べて32.5%のタンパク質産生量の増加がみられた。 5) 独立の湿式実験データセットでは、UTR-LMはゼロショット予測においてベースラインよりもSpearmanの相関係数が51%高かった。 6) 本研究では既知のKozakシーケンス、高GCがTEと相関するなどの制御パターンが再現され、新たな潜在的パターンも発見された。

©結論: 本研究では、mRNAの5’UTRおよびその機能を解読するための新しい自己教師あり言語モデルUTR-LMを提案し、MRL、TE、EL予測やIRES検出などのタスクで優れた性能を示した。さらに、高効率の5’UTR配列を設計・実験検証することに成功した。本研究は遺伝子発現制御の理解を促進し、治療介入の新たな手がかりを与えるものである。

研究の意義 1) 科学的価値: 本研究は5’UTRの生物学的機能を解読する新しい効果的な計算モデルを提案し、mRNAのタンパク質生合成過程における調節機構の深い理解に新たな洞察とツールを与える。 2) 応用価値: 設計された高効率5’UTR配列は、バイオテクノロジーや治療用タンパク質の生産プロセスへの応用が期待され、タンパク質産生量の最適化に役立つ。 3) 研究の特徴: 配列、二次構造、自由エネルギーを統合した言語モデルを提案した。優れた性能の5’UTR配列を設計し湿式実験で検証した。既知および新規の制御配列パターンを明らかにした。

本研究は、5’UTRの機能理解と最適化に新たな言語モデルアプローチを提供しており、重要な科学的価値だけでなく、幅広い応用の可能性を秘めた、mRNA調節分野での革新的な研究成果である。