階層的ネガティブサンプリングに基づくグラフ対照学習アプローチによる薬剤-疾患関連予測

階層的負サンプリングに基づくグラフ対比学習を用いた薬物-疾患関連予測の研究

薬物-疾患関連(RDAs)の予測は、疾患治療戦略の解明や薬物の再利用において重要な役割を果たしています。しかし、既存の方法は主に限定されたドメイン特有の知識に依存して薬物と疾患の候補関連を予測しているため、効果が限定されています。また、薬物-疾患関係の未知の情報を単純に負のサンプルとして定義することには固有の欠点があります。これらの課題を克服するため、本研究では階層的な負のサンプリングに基づく新しいグラフ対比モデルであるHSGCL-RDAを提案し、薬物と疾患の潜在的な関連を予測します。

研究背景と研究課題

薬物開発および疾患進行の制御プロセスは長くて高価であり、増え続ける疾患の数とその変異により効果的な薬物の需要が増しています。世界的な疾病の爆発(例えば、新型コロナウイルス感染症)により、既存の薬物の治療が大きな挑戦となっており、新しい治療薬の迅速な開発が急務となっています。既存薬の新しい用途を研究するには多くの課題が伴います。既存のアルゴリズムモデルは薬物開発のコストと時間をある程度削減しましたが、以下の限界があります:

  1. 類似性測度の不足: 多くのモデルは異なるオブジェクト間の多次元特徴を十分に考慮しておらず、その結果、計算過程でノイズや情報の損失を避けることができません。
  2. 負サンプル選択問題: 大多数のモデルは既知の関連の正サンプル情報に基づいており、未知のサンプル特性のスパース関連ネットワークを考慮していません。単純にこれを負サンプルとして定義するだけでは潜在的な薬物-疾患関連を予測するには不十分であり、より信頼性の高い負サンプルを選択することがこれらの方法で満足のいく予測結果を得るための鍵です。
  3. 対比学習の適用不足: 対比学習は多くのグラフ表現学習で顕著な効果を示していますが、これまでのところ潜在的な薬物-疾患関連の予測に適用されていません。

研究論文の出典

本論文はYuanxu Wang, Jinmiao Song, Qiguo Dai, およびXiaodong Duanによって執筆され、著者はそれぞれ新疆大学と大連民族大学に所属しています。この研究論文は2024年5月にIEEE Journal of Biomedical and Health Informatics誌に掲載されました。

研究プロセス

異構造ネットワークの構築

  1. 異なる生物分子の類似性ネットワークの構築: 異なるタイプの薬物、疾患、およびタンパク質の類似情報を計算し、正規化マトリックス分解を通じて有効な特徴情報を抽出・融合します。まず、高斯相互作用プロファイル核類似性(GIP)法を使用し、これは近年、異なる生物分子の類似性計算によく使用されています。特徴表現能力を強化するため、疾患の意味類似性、タンパク質の配列類似性、薬物のジャカード類似性計算方法も選択しました。

  2. 類似性マトリックスの融合: 複数の類似性計算方法で得られた異なる生物分子の類似情報を、特徴融合法で構築した完全な特性ネットワークに統合します。正規化マトリックス分解を使用して低次元ベクトル表現を得て、ノード特徴情報を効果的に捕捉します。

  3. 階層的な負サンプリング戦略: 類似性ネットワークに基づく階層サンプリングアルゴリズムを用いて、まずPageRankアルゴリズムを使用して薬物、疾患、およびタンパク質生物分子の類似性ネットワークを評価・ランク付けし、高度に関連する生物情報を抽出します。次に、関連情報を通じて疾患分子からタンパク質情報を取得し、タンパク質薬物の関連ネットワークに基づいてデータをフィルタリングし、最終的に信頼性の高い負サンプルデータセットを取得します。

グラフ対比モジュール

  1. メタパス内情報集約モジュール: グラフ注意ネットワークのレイヤーを使用してメタパス内のノードの相互作用情報の重要性を学習し、ノードエンベディング情報を取得します。注意重みを学習し、異なるメタパスに基づく薬物および疾患ノードの表現を捕捉します。

  2. メタパス間情報集約モジュール: 異なるメタパスは異なる特徴表現を持つため、これらのメタパス間の意味特徴情報をさらに集約して特徴の有効性を強化し、異なるメタパスに異なる重みを割り当てます。

  3. 二重チャネルネットワーク特徴グラフ対比モジュール: 薬物と疾患の間にあるより深い特徴情報を考慮し、GCNおよびSoGCNを使用してそれぞれグローバル特徴グラフとローカル特徴グラフを構築し、内部表現情報を十分に学習します。自己監督グラフ対比学習法を採用し、正負サンプルをグローバルおよびローカル特徴グラフに基づいて定義し、対比損失を計算します。

モデルの最適化と実験

最適化部分では、マルチレイヤーパーセプトロン(MLP)を利用して取得したノード表現情報を更新し、logsoftmax関数で正規化します。実験部分では、5フォールドクロスバリデーション法を採用し、AUC、AUPR、精度、再現率、F1スコアなどの複数の評価指標でモデル性能を全面的に評価しました。また、ハイパーパラメータ、負サンプル選択、およびGCNとSoGCNのレイヤー設定について複数の比較実験と優越性分析を行いました。

主な研究結果

複数の基準データセットにおけるHSGCL-RDAの実験結果は、本研究の方法が薬物-疾患関連の予測において従来の方法よりも優れていることを示しています。特に、初期の正負サンプルの特性ネットワークで対比結合コスト関数を最適化し、階層的な負サンプリング戦略を採用することで、非ユークリッド空間のエンコーディングでグラフ構造情報を捉える能力が効果的に向上しました。

研究の意義と価値

HSGCL-RDAは薬物-疾患関連の予測において優れた性能を示すだけでなく、既存薬の潜在的な疾患治療効果を発見することにも寄与し、重要な応用価値を持っています。今回の方法は、薬物-疾患関連予測の核心問題を解決するための有効な手段を提供し、負サンプル選択方法の改良および異構造ネットワークに対する対比学習の適用に新規性があります。

際立った特徴

  1. 階層的な負サンプリング戦略:階層的な負のサンプリング方式を用いてより信頼性の高い負サンプルを選択し、スパースな関連ネットワークにおけるモデルの予測効果を向上させました。
  2. メタパス内および間情報集約:異構造ネットワーク下の多次元ノード情報を効果的に捕捉し、特徴表現能力を強化しました。
  3. 二重チャネルネットワーク特徴グラフ対比:グローバル特徴グラフとローカル特徴グラフを通じて薬物と疾患間の深い関連を掘り下げ、モデルの予測性能を向上させました。
  4. 検証と評価:異なるデータセット、ハイパーパラメータの範囲、および負のサンプル選択戦略において、一連の実験を通じてHSGCL-RDAの広範な適用性と有効性を証明しました。

結論

本研究では、階層的な負のサンプリングに基づくグラフ対比学習方法(HSGCL-RDA)を提案し、負のサンプル選択戦略とグラフ対比の構造を最適化することによって、薬物-疾患関連の予測性能を効果的に強化しました。将来の実験室実験において、本研究は実際の薬物-疾患関連の予測に信頼性のある基盤を提供します。