生物ネットワークからタンパク質知識を学習することによる薬物ターゲット親和性の予測

##生物ネットワークを学習してタンパク質知識を用い薬物-標的親和性を予測する

背景紹介

薬物-標的親和性(drug-target affinity, DTA)の予測は、新薬の発見過程において重要な位置を占めています。効率的かつ正確なDTA予測は、新薬開発の時間と経済的コストを大幅に短縮できます。近年、深層学習技術の爆発的発展により、DTA予測に強力なサポートが提供されています。既存のDTA予測方法は主に1Dタンパク質配列に基づく方法と2Dタンパク質構造図に基づく方法に分けられます。しかし、これらの方法は標的タンパク質の内在特性にのみ注目し、過去の研究で明らかにされているタンパク質相互作用の広範な先験知識を無視しています。

この問題に対して、本研究ではMSF-DTA(多源特徴融合に基づく薬物-標的親和性)と名付けられたエンドツーエンドのDTA予測方法を提案します。MSF-DTAは隣接タンパク質の情報を利用してタンパク質の表現を強化し、高度なグラフ事前訓練フレームワークVG-AE(変分グラフオートエンコーダー)を使用してこれらの表現を学習し、予測結果をより正確かつ効率的にします。

出典紹介

この研究はWenjian Ma、Shugang Zhang、Zhen Li、Mingjian Jiang、Shuang Wang、Nianfan Guo、Yuanfei Li、Xiangpeng Bi、Huasen Jiang、そしてZhiqiang Weiによって書かれ、著者はそれぞれ中国海洋大学青島キャンパス、青島大学、中国石油大学(華東)などの複数の著名な機関に所属しています。論文は2023年4月にIEEE Journal of Biomedical and Health Informaticsに掲載されました。

研究詳細紹介

作業フロー

  1. データ収集とネットワーク構築

SwissProtデータベースから18,552個の人間タンパク質を収集し、既知のタンパク質相互作用関係に基づいてタンパク質-タンパク質相互作用ネットワーク(PPI)と配列相似性ネットワーク(SSN)を構築しました。

  1. タンパク質特徴表現

配列コード、細胞内位置、およびタンパク質ドメインなどの特徴を含み、これらの三つの特徴を用いてタンパク質を前処理し、最終的に2,045次元の特徴ベクトルを生成しました。

  1. 変分グラフオートエンコーダー(VG-AE)

VG-AEフレームワークを使用してPPIおよびSSNネットワーク内のタンパク質特徴を多源特徴融合しました。グラフ畳み込みネットワーク(GCN)エンコーダーを使用して高次元の特徴表現を低次元の潜在表現μに圧縮し、内積デコーダーを使用して入力グラフデータを再構築しました。

  1. DTA予測

低次元の潜在表現を使用してDTAの予測を行いました。具体的な方法として、タンパク質特徴と3層GCNによって抽出された薬物特徴を融合し、最終的に複数の全結合層を通してDTA結果を出力しました。

主結果

  1. モデルパフォーマンス

MSF-DTAは、広く使用されている2つのDTA予測ベンチマークデータセットDavisとKIBAで優れたパフォーマンスを発揮しました。DavisデータセットでのMSEは0.194、CIは0.906でした。KIBAデータセットでのMSEは0.124、CIは0.897でした。実験結果は、MSF-DTAが既存の最先端DTA予測方法よりも優れていることを示しました。

  1. タンパク質隣接特徴の有効性

PPIおよびSSNネットワーク内の隣接タンパク質情報を導入することにより、MSF-DTAはタンパク質の表現を効果的に強化し、モデルの予測性能を向上させることができました。

  1. 広範な適用性

この方法は化合物-タンパク質相互作用(CPI)予測タスクでも優れた成果を上げており、異なるタスクでの汎化能力を証明しています。

結論と意義

本研究で提案されたMSF-DTA方法は、タンパク質の多源特徴を融合することで、DTA予測の正確性と効率性を大幅に向上させ、正確かつ効率的なツールを提供しました。この方法は、高次元のタンパク質特徴をタンパク質表現の新たなアプローチとして使用する有効性を示しただけでなく、PPIおよびSSNネットワーク内の隣接タンパク質特徴を用いて薬物-タンパク質相互作用や親和性を予測することの実現可能性も証明しました。

研究のハイライト

  1. 多源特徴の導入

MSF-DTAは、タンパク質の内在属性とPPIおよびSSNネットワーク内の生物学的先験知識を組み合わせることで、DTA予測タスクに新たな視点を提供しました。

  1. 高度なグラフ事前訓練フレームワークVG-AEの応用

VG-AEフレームワークを利用し、モデルがタンパク質間のトポロジー接続をより良く捉え、タンパク質表現の豊富さを強化しました。

  1. 優れた実験結果

DTA予測タスクおよびCPI予測タスクにおいて、MSF-DTAは既存の最先端手法を上回る成果を示しました。

結論

本研究は、多源特徴融合に基づく新たな薬物-標的親和性予測方法MSF-DTAを提案し、タンパク質-タンパク質相互作用および配列相似性ネットワーク内の隣接タンパク質情報を利用して、DTA予測の正確性と効率性を大幅に向上させました。本研究は、高次元のタンパク質特徴をタンパク質表現の新たなアプローチとして使用する有効性を示しただけでなく、PPIおよびSSNネットワーク内の隣接タンパク質特徴を用いて薬物発見および効率的なDTA予測のための新たな解決策を提供しました。