SP-DTI:サブポケット情報を利用したTransformerモデルによる薬物-標的相互作用予測

学術的背景

薬物-ターゲット相互作用(Drug-Target Interaction, DTI)の予測は、薬物発見における重要なプロセスであり、実験スクリーニングのコストと時間を大幅に削減することができます。しかし、深層学習技術がDTI予測の精度を向上させたにもかかわらず、既存の方法は依然として2つの大きな課題に直面しています:汎化能力の不足サブポケットレベルの相互作用の無視です。まず、既存のモデルは未知のタンパク質やクロスドメイン設定において性能が著しく低下します。次に、現在の分子関係学習は、サブポケットレベルの相互作用をしばしば無視しており、これらの相互作用は結合部位の詳細を理解する上で重要です。これらの課題を解決するために、研究者はSP-DTIという新しいモデルを提案し、サブポケット分析と事前学習済み言語モデルを導入することで、DTI予測の精度と汎化能力を向上させました。

論文の出典

この論文は、Sizhe LiuYuchen LiuHaofeng XuJun Xia、およびStan Z. Liによって共同執筆されました。彼らはそれぞれUniversity of Southern Californiaのコンピュータサイエンス部門と定量・計算生物学部門、およびWestlake Universityの工学部に所属しています。論文は2025年にBioinformatics誌に掲載され、タイトルは《SP-DTI: Subpocket-Informed Transformer for Drug–Target Interaction Prediction》です。

研究の流れ

1. 問題の定義

DTI予測は二値分類タスクとして定義され、薬物とターゲットタンパク質の間に相互作用が存在するかどうかを予測することを目的としています。薬物はSMILES(Simplified Molecular Input Line Entry System)で表現され、ターゲットタンパク質はアミノ酸配列で表現されます。タスクの核心は、薬物-ターゲットペアを二値相互作用スコアにマッピングする関数を学習することで、0は相互作用なし、1は相互作用ありを示します。

2. モデル設計

SP-DTIモデルは、3つの主要なモジュールで構成されています:

a) サブポケットモデリングモジュール(Subpocket Modeling Module, SMM)

このモジュールは、薬物とタンパク質の原子レベルでの複雑な相互作用を捉えることを目的としています。AlphaFold2を使用してタンパク質の3次元構造を生成し、CAVIARアルゴリズムを使用して潜在的な結合ポケットを識別し、さらにそれをサブポケットに分解します。各サブポケットには、リガンド結合部位としての可能性を示すスコアが割り当てられます。その後、各サブポケットに対して独立したグラフを生成し、グラフ畳み込みネットワーク(GCN)で処理して、詳細なサブポケット特徴の埋め込みを生成します。

b) シーケンス-グラフ融合モジュール(Seq-Graph Fusion Module, SGFM)

このモジュールは、事前学習済み言語モデルとグラフニューラルネットワーク(GNN)を組み合わせてエンコーディング能力を強化します。タンパク質と薬物の配列は、それぞれESM-2ChemBERTa言語モデルによって埋め込みが生成され、これらの埋め込みがGNNのノード特徴として入力されます。最終的な出力は、タンパク質と薬物の統一された表現です。

c) 相互作用モジュール(Interaction Module)

このモジュールは、Transformerモデルを使用して薬物、タンパク質、およびサブポケット間の相互作用を捕捉します。まず、薬物、タンパク質、およびサブポケットの埋め込みをマトリックスに結合し、サブポケットとポケット間の関係を捉えるために位置エンコーディングを導入します。その後、マルチヘッドアテンションメカニズムを通じて埋め込みを更新し、最終的には多層パーセプトロン(MLP)を使用して相互作用の確率を予測します。

3. 実験と結果

a) データセットと評価指標

研究では、BiosnapDavisの2つのデータセットを使用しました。それぞれ4510の薬物、2181のタンパク質、および68の薬物、379のタンパク質を含んでいます。評価指標には、ROC-AUC(受信者操作特性曲線下面積)とPR-AUC(適合率-再現率曲線下面積)が含まれます。

b) ランダム分割テスト

ランダム分割設定では、SP-DTIはBiosnapとDavisデータセットで優れたパフォーマンスを示し、ROC-AUCはそれぞれ0.931と0.934で、すべてのベースラインモデルを大幅に上回りました。

c) 未知の薬物/タンパク質分割テスト

未知の薬物とタンパク質設定では、SP-DTIは依然として高い性能を維持し、特に未知のタンパク質設定ではROC-AUCが0.873に達し、わずか6%の低下にとどまりましたが、他のベースラインモデルは12%以上の性能低下を経験しました。

d) クロスドメイン分割テスト

クロスドメインテストでは、SP-DTIのROC-AUCは0.773であり、クロスドメイン設定における強力な汎化能力をさらに証明しました。

e) モデルの解釈性

アテンションメカニズムを通じて、SP-DTIはどのタンパク質結合部位が特定のリガンドと結合する可能性が高いかを予測できます。研究では、HIVプロテアーゼD545701とGW0385の結合を例に、モデルが実験的に検証された結合部位を正確に識別する方法を示しました。

4. アブレーション実験

アブレーション実験では、事前学習済み言語モデルがモデルの性能に最も大きな影響を与えることが示されました。次に、サブポケットエンコーダ、相互作用モジュール、および融合モジュールが重要であり、いずれかの部分を削除すると性能が低下することが確認されました。

結論と意義

SP-DTIモデルは、サブポケット情報とシーケンス-グラフ融合モジュールを導入することで、DTI予測の精度と汎化能力を大幅に向上させました。研究結果は、SP-DTIがランダム分割、未知の薬物/タンパク質分割、およびクロスドメイン設定において、既存の最先端モデルを上回ることを示しています。さらに、モデルの解釈性は、薬物発見に重要な洞察を提供し、科学者が予測された相互作用メカニズムを理解するのに役立ち、薬物開発プロセスを加速することができます。

研究のハイライト

  1. サブポケットレベルのモデリング:DTI予測で初めてサブポケット情報を導入し、より詳細な結合部位分析を提供。
  2. シーケンス-グラフ融合:事前学習済み言語モデルとグラフニューラルネットワークを初めて組み合わせ、モデルの汎化能力を強化。
  3. クロスドメイン性能:クロスドメイン設定で優れたパフォーマンスを示し、実際の応用におけるモデルの潜在能力を示す。
  4. モデルの解釈性:アテンションメカニズムを通じて結合部位の可視化を提供し、モデルの解釈性を向上。

コードとデータの可用性

SP-DTIのコードはオープンソースであり、GitHubから入手可能です:https://github.com/steven51516/sp-dti。データセットの分割情報は、MolTransとDrugBanのGitHubリポジトリから入手できます。

謝辞

著者は、匿名の査読者からの貴重な提案に感謝します。

著者の貢献

Sizhe LiuとYuchen Liuは共同第一著者として、概念化、方法設計、ソフトウェア開発、および論文執筆を担当しました。Haofeng Xuはソフトウェア開発と論文レビューに参加しました。Jun Xiaは監督と検証を担当しました。Stan Z. Liはプロジェクト管理と資金調達を担当しました。

資金支援

本研究は、中国国家自然科学基金、西湖大学合成生物学および統合生物工学センター、および西湖大学未来産業研究基金の支援を受けました。