EPICPred:注意ベースのマルチインスタンス学習を用いたエピトープ結合TCR駆動型表現型の予測
T細胞受容体(TCR)は適応免疫システムにおいて重要な役割を果たしており、特定の抗原エピトープ(epitope)に結合することで病原体を認識します。TCRとエピトープ間の相互作用を理解することは、免疫応答の生物学的メカニズムを解明し、T細胞を介した免疫療法を開発する上で極めて重要です。しかし、TCRのCDR3領域がエピトープ認識において重要であることは広く認められているものの、特定の疾患や表現型に関連するTCR-エピトープ相互作用を正確に予測する方法は依然として課題となっています。この問題に対処するため、研究者たちはEpicPredを開発しました。これは注意メカニズムに基づく多インスタンス学習(Multiple Instance Learning, MIL)モデルであり、がんやCOVID-19患者の重症度に関連するTCR-エピトープ相互作用を予測することを目的としています。
論文の出典
この論文は、Jaemin Jeon、Suwan Yu、Sangam Lee、Sang Cheol Kim、Hye-Yeong Jo、Inuk Jung、Kwangsoo Kimによって共同執筆され、それぞれソウル大学、延世大学、韓国国立保健研究院、慶北国立大学、ソウル大学病院に所属しています。論文は2025年に『Bioinformatics』誌に掲載され、タイトルは「EpicPred: Predicting Phenotypes Driven by Epitope-Binding TCRs Using Attention-Based Multiple Instance Learning」です。
研究のプロセス
1. データ収集と前処理
研究では、まず6つの公開TCRデータベースから244,552のTCR配列と105のユニークなエピトープを収集しました。これらのデータは、EpicPredモデルの訓練とテストに使用されました。ノイズを減らすため、研究者たちはTCR配列をフィルタリングし、長さが8未満または22を超えるアミノ酸配列や、非標準アミノ酸を含む配列を除外しました。
2. オープンセット認識(Open-Set Recognition, OSR)
EpicPredはまず、オープンセット認識(OSR)メソッドを使用して、TCR-エピトープ相互作用が起こりにくい配列を予測し、除去することで偽陽性を減らします。OSRメソッドは、既知および未知のエピトープ結合TCR(epitope-binding TCRs, EB-TCRs)と非エピトープ結合TCR(non-epitope-binding TCRs, NEB-TCRs)を効果的に区別することができます。
3. 多インスタンス学習(MIL)モデル
EB-TCRsを予測した後、EpicPredは多インスタンス学習モデルを使用して、がんの種類やCOVID-19患者の重症度に関連するTCR-エピトープ相互作用を特定します。このモデルは、BERT(Bidirectional Encoder Representations from Transformers)を使用してTCR配列をエンコードし、注意メカニズムを適用して類似するTCR配列を集約し、サンプル表現ベクトルを生成します。
4. 表現型予測
EpicPredの最終的な目標は、患者の表現型(例えば、がんやCOVID-19の重症度)を予測することです。モデルは、各TCRとエピトープの結合確率を計算し、K-meansクラスタリングを使用して類似するTCR配列をグループ化し、表現型予測モデルを訓練します。研究では、2種類の損失関数を使用しました:TCR特異的損失とサンプル特異的損失で、それぞれ単一のTCR配列と表現型の関係を決定し、表現型に関連するTCRのグループを検出するために使用されます。
主な結果
1. EB-TCRsの予測
EB-TCRsを予測する実験では、EpicPredはクローズドテストセットとオープンテストセットの両方で優れたパフォーマンスを示しました。クローズドテストセットでは、モデルはTCRとエピトープの結合を予測する際にF1スコアが0.97±0.01に達しました。オープンテストセットでは、EpicPredはEB-TCRsとNEB-TCRsを効果的に区別し、F1スコアは0.71±0.01でした。
2. 表現型予測
EpicPredは、COVID-19患者の重症度やがんサンプルの表現型を予測する際に優れたパフォーマンスを示しました。COVID-19データセットでは、モデルは中等度と重度の症例を予測する際にAUROC(Area Under the Receiver Operating Characteristic)が0.80±0.07に達しました。がんデータセットでは、EpicPredは健康なサンプルとがんサンプルを区別する際にAUROCが0.78±0.04でした。
3. 単細胞データ分析
単細胞RNAシーケンスデータの分析を通じて、EpicPredはCOVID-19の重症度に関連する細胞サブポピュレーションを特定しました。研究では、高い注意スコアを持つ細胞がSARS-CoV-2エピトープを認識する際に顕著な違いを示し、これらの細胞が表現型予測において重要な役割を果たしていることが示されました。
結論と意義
EpicPredは、オープンセット認識と多インスタンス学習を組み合わせることで、がんやCOVID-19の重症度に関連するTCR-エピトープ相互作用を成功裏に予測しました。このモデルは、表現型予測の精度を向上させるだけでなく、TCRが免疫応答において果たす役割を理解するための新たな視点を提供します。EpicPredの開発は、将来の免疫療法やワクチン設計において重要なツールを提供し、特に個別化医療や精密免疫治療の分野で広範な応用が期待されます。
研究のハイライト
- 新しいモデル設計:EpicPredは初めてオープンセット認識と多インスタンス学習を組み合わせ、EB-TCRsとNEB-TCRsを効果的に区別し、表現型予測において顕著な成果を上げました。
- 高精度な予測:複数の公開データセットにおいて、EpicPredはTCRとエピトープの結合および表現型分類の予測において既存の手法を上回る性能を示しました。
- 単細胞データ分析:単細胞RNAシーケンスデータを通じて、EpicPredはCOVID-19の重症度に関連する細胞サブポピュレーションを特定し、免疫応答のメカニズムを理解するための新たな知見を提供しました。
その他の価値ある情報
EpicPredのソフトウェア実装はGitHub上でオープンソースとして公開されており、研究者はこのモデルを自由に使用および改変して、TCRとエピトープ相互作用の研究をさらに推進することができます。また、研究チームはEpicPredを他の疾患領域に拡張し、免疫学研究におけるより広範な応用可能性を探る計画です。
この研究を通じて、EpicPredはTCRとエピトープ相互作用の予測に新たな方法を提供するだけでなく、将来の免疫療法やワクチン設計において新たな道を切り開きました。