T細胞受容体表現の対照学習
T細胞受容体(TCR)特異性予測の新たな進展——SCEPTRモデルの提案
学術的背景
T細胞受容体(TCR)は免疫システムにおいて極めて重要な役割を果たしており、主要組織適合複合体(MHC)によって提示されたペプチドと結合することで、免疫反応の特異性を決定します。TCRと特定のペプチド-MHC複合体(pMHC)の相互作用を理解することは、免疫学における大きな課題です。高スループット実験技術の発展により、大量のTCR配列データが得られるようになりましたが、TCRが特定のpMHCと結合する能力を正確に予測することは依然として困難です。現在、タンパク質言語モデル(PLMs)は高スループットデータ分析において強力な可能性を示していますが、TCR特異性予測タスクでは特にデータが不足している状況下では不十分なパフォーマンスしか発揮できていません。そのため、注釈のないTCR配列データを効果的に利用してモデルをトレーニングすることが、この問題を解決する鍵となっています。
論文の出典
本論文はYuta Nagano、Andrew G.T. Pyo、Martina Milighettiらによって共同執筆され、University College LondonやPrinceton Universityなど、複数の有名研究機関から発表されました。2025年1月15日に『Cell Systems』誌に掲載され、タイトルは*“Contrastive Learning of T Cell Receptor Representations”*です。この研究では、新しいTCR言語モデルSCEPTR(Simple Contrastive Embedding of the Primary Sequence of T Cell Receptors)を導入し、対照学習とマスク言語モデリング(MLM)を組み合わせた事前学習戦略を提案することで、TCR特異性予測の精度を大幅に向上させました。
研究プロセス
1. 問題の背景と研究動機
TCRとpMHCの結合能力予測は免疫学の中心的な課題の一つです。これまでに多くの機械学習手法がこの分野に適用されてきましたが、これらのモデルは未見のpMHCに対する汎化能力が低く、特にデータが不足している状況では不十分でした。既存のタンパク質言語モデル(ProtBERTやESM2など)は、TCR特異性予測タスクにおいて、配列比較手法(TCRdistなど)にすら劣ることが示されています。そのため、本研究では対照学習を導入し、TCR特異性予測により適したタンパク質言語モデルを設計することを目指しました。
2. SCEPTRモデルの設計
SCEPTRモデルの核心となる革新は、事前学習戦略にあります。具体的には、自己対照学習(Autocontrastive Learning)とマスク言語モデリング(MLM)を組み合わせています。SCEPTRは、TCR配列をその6つの相補性決定領域(CDRs)に分割し、シンプルなone-hotエンコーディングシステムを使用して各アミノ酸残基をベクトル化します。その後、これらのベクトルは3層の自己注意メカニズムを通過し、64次元のTCR表現ベクトルを生成します。
自己対照学習の核心的な考え方は、同一のTCRの2つの独立した「ビュー」を生成し、表現空間内でそれらを近づける一方で、異なるTCRの表現を遠ざけることです。この学習方法は、特にVDJ組換えのランダム性に支配されたTCR配列の変異を扱う際に、従来のMLM事前学習の限界を効果的に克服することができます。
3. 自己対照学習の実装
自己対照学習では、SCEPTRは入力特徴の一部(特定のアミノ酸残基やTCR鎖全体など)をランダムに削除することで、2つの独立したビューを生成します。このデータ拡張方法により、モデルは無監督学習においてTCR特異性に関連する特徴をキャプチャすることが可能となります。さらに、SCEPTRは特別な
4. モデルのパフォーマンス評価
SCEPTRの性能を評価するために、研究チームは標準化された少数サンプル予測タスクを設計しました。このタスクでは、モデルは参照TCRが与えられた状況下で、クエリTCRが特定のpMHCと結合するかどうかを予測する必要があります。研究では、SCEPTRと既存のモデル(TCR-BERT、ProtBERT、ESM2など)および配列比較手法(TCRdistなど)の性能を比較しました。
その結果、SCEPTRはほとんどのケースで既存のモデルを上回り、特に参照TCRの数が少ない状況で優れたパフォーマンスを発揮しました。例えば、参照TCRが200個の場合、SCEPTRはテストされた6つのpMHCのうち5つでTCRdistを上回りました。さらに、SCEPTRの対照学習戦略は、異なるpMHC間の識別能力を大幅に向上させました。
5. モデルのアブレーション実験
自己対照学習がSCEPTRの性能にどの程度寄与しているかを検証するために、研究チームは複数のアブレーション実験を行いました。その結果、MLMのみでトレーニングされたSCEPTRの変種は性能が大幅に低下しましたが、対照学習を使用したSCEPTRの変種はTCRdistに匹敵する性能を発揮しました。さらに、SCEPTRの表現ベクトルが、特に低生成確率(pgen)のTCR配列を扱う際に、TCR特異性に関連する配列特徴を効果的に捉えられることが明らかになりました。
主な結果と結論
1. SCEPTRの性能優位性
SCEPTRは少数サンプルのTCR特異性予測タスクにおいて優れた性能を示し、既存のモデルを大きく上回りました。特にデータが不足している状況下では、SCEPTRの対照学習戦略により、未見のpMHCに対する汎化能力が向上しました。また、SCEPTRの表現ベクトルは、配列比較手法では捉えることのできないTCR特異性の特徴を効果的にキャプチャできることがわかりました。
2. 対照学習の科学的価値
対照学習を通じて、SCEPTRは同一特異性を持つTCRを表現空間内で効果的に識別し、異なる特異性を持つTCRを遠ざけることができます。この特性により、SCEPTRはTCR特異性予測タスクにおいて特にデータが不足している状況での優位性を持っています。
3. 応用の展望
SCEPTRの提案は、TCR特異性予測に新たなパラダイムを提供します。このモデルは少数サンプル予測タスクに使用できるだけでなく、TCR配列のクラスタリング分析に応用することで、抗原特異的なT細胞集団(metaclonotypes)を発見することも可能です。さらに、SCEPTRの対照学習戦略は、他のタンパク質関連タスクにも新たな視点を提供します。
研究のハイライト
- 革新的な事前学習戦略:SCEPTRは対照学習とMLMを組み合わせることで、TCR特異性予測タスクにおけるモデルの性能を大幅に向上させました。
- データ効率性:SCEPTRは少数サンプルタスクで優れたパフォーマンスを発揮し、注釈のないTCR配列データを効果的に活用できます。
- 幅広い応用の展望:SCEPTRはTCR特異性予測だけでなく、TCR配列のクラスタリング分析や他のタンパク質関連タスクにも応用可能です。
まとめ
本研究ではSCEPTRモデルを導入し、対照学習とマスク言語モデリングを組み合わせた事前学習戦略を提案することで、TCR特異性予測に対する新たな解決策を提供しました。この研究は、既存のモデルがデータ不足の状況下で直面する汎化問題を解決するだけでなく、タンパク質言語モデルのトレーニングに新たなパラダイムを提供し、重要な科学的価値と応用の展望を持っています。