事前学習済み大規模言語モデルに基づいたヒトタンパク質重要性の包括的予測と解析
事前学習された大規模言語モデルに基づくヒトタンパク質の必須性予測と分析
学術的背景
ヒト必須タンパク質(Human Essential Proteins, HEPs)は、個体の生存と発育に不可欠です。しかし、実験的にHEPsを同定する方法は、コストが高く、時間がかかり、労力も大きいのが一般的です。さらに、既存の計算方法は細胞株レベルでのみHEPsを予測しますが、HEPsは生体ヒト、細胞株、および動物モデル間で顕著に異なります。そのため、複数のレベルで包括的にHEPsを予測する計算手法の開発が重要です。最近、大規模言語モデル(Large Language Models, LLMs)が自然言語処理分野で大きな成功を収めており、タンパク質言語モデル(Protein Language Models, PLMs)も大規模なタンパク質配列に基づいて事前学習を行うことで注目を集めています。しかし、PLMsがタンパク質の必須性予測タスクの性能を向上させることができるかどうかはまだ不明です。
論文の出典
この論文はBoming Kang、Rui Fan、Chunmei Cui、Qinghua Cuiによって共著され、Qinghua Cuiが責任著者です。研究チームは北京大学基礎医学院生物医学情報学部門と武漢体育学院運動医学院に所属しています。本論文は2024年に『Nature Computational Science』誌に掲載されました。
研究の流れ
データ収集
研究チームは、複数の公開データベースからタンパク質の必須性データを収集し、gnomad、ogee-mgi、Project Scoreデータベースを使用しました。これらのデータはそれぞれ、ヒトレベル(pic-human)、マウスレベル(pic-mouse)、および細胞株レベル(pic-cell)のモデルをトレーニングするために使用されました。具体的には以下の通りです:
- ヒトレベル:gnomadデータベースから65,057個のタンパク質配列とそれに対応するLOEUF(Loss of Function Observed/Expected Upper Bound Fraction)値を取得し、14,146個を正例、50,911個を負例としました。
- マウスレベル:ogeeデータベースから6,050個のヒトタンパク質配列とそれに対応するマウスタンパク質の必須性ラベルを取得し、443個を正例、5,607個を負例としました。
- 細胞株レベル:Project Scoreデータベースから17,185個のタンパク質配列と323の異なるヒト細胞株での必須性ラベルを取得しました。
モデルアーキテクチャ
研究チームは、事前学習されたタンパク質言語モデル(PLM)を微調整することでタンパク質の必須性を予測するタンパク質重要性計算器(Protein Importance Calculator, PIC)と呼ばれる深層学習モデルを開発しました。PICモデルは3つの主要なモジュールで構成されています:
- 埋め込みモジュール:ESM-2モデルを使用してタンパク質配列を固定次元の数値特徴ベクトルに変換します。
- アテンションモジュール:マルチヘッドアテンションメカニズムを使用してタンパク質配列内の異なる位置のアミノ酸の重要性を捕捉します。
- 予測モジュール:多層パーセプトロン(MLP)を使用してタンパク質配列の予測確率を生成します。
モデル性能評価
研究チームは、精度、再現率、適合率、F1スコア、ROC曲線下面積(AUROC)、およびPR曲線下面積(AUPRC)などの指標を使用してPICモデルの性能を評価しました。その結果、pic-humanモデルのAUROCが最も高く0.9132、pic-mouseモデルのAUROCは0.8736、pic-cellモデルのAUROCの中央値は0.8579でした。既存の方法と比較して、PICは予測性能を大幅に向上させました。
タンパク質必須性スコア(Protein Essential Score, PES)
研究チームはPICモデルが出力する確率値に基づいてタンパク質必須性スコア(PES)を定義し、一連の生物学的分析を通じてその有効性を検証しました。PESは、タンパク質相互作用ネットワークのノード次数、正常組織の発現レベル、がん組織の発現レベル、phylop、phastcons、および疾患数などの生物学的指標と有意な正の相関関係を示しました。
クロスレベル分析
研究チームはPESを使用してクロスレベル分析を行い、タンパク質の必須性がヒト、細胞株、およびマウスのレベル間で顕著に異なることを発見しました。たとえば、非固形腫瘍(急性骨髄性白血病など)と固形腫瘍(乳がんなど)ではタンパク質の必須性が大きく異なります。さらに、特定の組織において高必須性を示すタンパク質も発見されました。
ケーススタディ
研究チームは乳がんのケーススタディを通じて、PESが予後バイオマーカーを発見する潜在的な能力を検証しました。その結果、PESによってスクリーニングされた10種のタンパク質のうち8種が、複数の臨床コホートにおいて乳がん患者の生存率を効果的に予測できました。さらに、研究チームはPESを使用して617,462個のヒトマイクロタンパク質の必須性を定量化し、高必須性のマイクロタンパク質が主に細胞分裂、細胞呼吸、DNA複製などの基本的な生物学的プロセスに関与していることを発見しました。
結論と意義
PICモデルは、事前学習されたタンパク質言語モデルを微調整することで、ヒトタンパク質の必須性予測性能を大幅に向上させ、ヒト、細胞株、およびマウスの3つのレベルでの包括的な予測結果を提供します。研究チームが定義したPESは、タンパク質の必須性を定量化するだけでなく、潜在的な予後バイオマーカーや薬物ターゲットを発見するためにも使用できます。将来的に、PICモデルは薬物発見、臨床治療、および合成生物学の分野で重要な役割を果たすことが期待されています。
研究のハイライト
- 予測性能の大幅な向上:PICモデルはヒト、細胞株、およびマウスのレベルで既存の方法よりも優れた予測性能を示しました。
- クロスレベル分析:研究チームは、初めて複数のレベルでタンパク質の必須性の違いを体系化しました。
- タンパク質必須性スコア(PES):PESはタンパク質の必須性を定量化するための効果的な指標であり、生物学的分析と臨床応用の検証で優れた結果を示しました。
- ケーススタディによる検証:乳がんのケーススタディを通じて、PESが予後バイオマーカーや治療ターゲットを発見する潜在的な能力を検証しました。
その他の価値ある情報
研究チームは、研究者が候補タンパク質配列を入力し、異なるレベルでの必須性予測結果を取得できるユーザーフレンドリーなWebサーバー(http://www.cuilab.cn/pic)を開発しました。このサーバーはPython 3、Flask、およびNumPyに基づいて構築され、使いやすい操作インターフェースと結果のダウンロード機能を提供します。