複数の先行知識を持つグラフニューラルネットワークによるマルチオミクスデータ分析

医学多組学データ分析における多重先験知識グラフニューラルネットワーク

背景紹介

精密医療は将来の医療保健において重要な分野であり、患者に個別化された治療計画を提供することにより、治療効果を改善しコストを削減します。例えば、乳がん患者の複雑な臨床、病理、および分子特性を考えると、同じ治療が異なる効果を示すことがあります。バイオ医学技術の急速な発展に伴い、多組学データを通じて疾病の特性化が可能になっています。多組学アプローチは単一組学アプローチに比べて、複数のデータ間で一貫性と補完的な情報を捉えることができ、より正確かつ深くモデルを構築することができます。例えば、がんゲノム図譜(The Cancer Genome Atlas, TCGA)は、mRNA 発現、DNA メチル化、およびコピー数変異(Copy Number Variation, CNV)を含む多組学データを提供します。そのため、精密医療の各種タスクに多組学データを導入することは必要不可欠であり、これらのタスクには薬物反応予測、遺伝子発見、生存分析などが含まれます。 多組学分析フレームワーク示意図

著者と來源

本文はShunxin Xiao, Huibin Lin, Conghao Wang, Shiping Wang(IEEE メンバー)、および Jagath C. Rajapakse(IEEE フェロー)によって共同執筆されました。Shunxin Xiaoは南洋理工大学コンピューターサイエンス&エンジニアリング学部と福州大学コンピューター&データ科学学部に所属しています。Huibin LinとShiping Wangは福州大学コンピューター&データ科学学部に所属しています。Conghao WangとJagath C. Rajapakseも南洋理工大学コンピューターサイエンス&エンジニアリング学部に所属しています。この論文は2023年9月のIEEE Journal of Biomedical and Health Informaticsに掲載されました。

研究内容

研究プロセス

本文では、グラフニューラルネットワーク(Graph Neural Networks, GNN)に基づく多組学データ分析フレームワークを提案し、多重先験知識を組み合わせることで多組学学習を最適化します。この方法には4つの主要モジュールが含まれます。

  1. 特徴レベル学習モジュール:先験グラフを通じて入力された特徴情報を集約し、特徴レベルの埋め込みを生成します。
  2. プロジェクションモジュール:対比損失を最適化することで、各先験ネットワーク間の一貫性を最大化します。
  3. サンプルレベル学習モジュール:多層パーセプトロン(Multilayer Perceptron, MLP)を介してグローバルな表現を学習します。
  4. タスク特定モジュール:フレームワークを拡張して、異なる下流の多組学分析タスクに適応させます。

実験部分では、このフレームワークが癌の分子サブタイプ分類タスクにおいて有効であることを検証しました。

主な結果

癌の分子サブタイプ分類タスクにおいて、実験結果は、MPK-GNNが複数のデータセットで他の最先端のアルゴリズム(多視点学習方法や多組学統合方法を含む)よりも優れていることを示しました。具体的には、

  • 特徴レベル学習モジュール:グラフ畳み込みネットワーク(Graph Convolutional Network, GCN)を使用して入力された多組学特徴から特徴レベルの表現を学習しました。実験で使用されたグラフには、遺伝子-遺伝子相互作用(GGI)ネットワーク、タンパク質-タンパク質相互作用(PPI)ネットワーク、および共発現(Coexp)ネットワークが含まれます。
  • プロジェクションモジュール:浅層ニューラルネットワークを通じて各先験知識の表現を再構築し、それらの一貫性を最大化します。
  • サンプルレベル学習モジュール:多層パーセプトロンを通じて各入力サンプルのグローバルな表現を学習します。
  • タスク特定モジュール:特徴レベルの埋め込みとサンプルレベルの表現を結合し、タスク特定モジュールに入力して癌の分子サブタイプ分類タスクなどを解決します。

結論および意義

この研究では、拡張可能なエンドツーエンドのディープラーニングフレームワーク(MPK-GNN)を提案し、初めて対比学習フレームワークを多組学データ分析に導入し、複数の先験知識グラフを同時に活用しました。実験結果は、MPK-GNNが癌の分子サブタイプ分類タスクにおいて顕著な向上を示しました。この方法は、特に監視サンプルが少ない場合に計算モデルの堅牢性と性能を向上させるだけでなく、多組学データ分析タスクの拡大にも貢献します。将来的な作業には、入力特徴情報をよりよく捕捉するためにサンプルレベルモジュールを最適化し、さらなる多組学データ分析タスクでMPK-GNNの優越性を検証することが含まれます。

方法のハイライト

  1. 革新的な応用:多組学データ分析において初めて複数の先験グラフを同時に導入しました。
  2. 対比学習フレームワーク:共有の対比学習アーキテクチャを通じて、複数の先験知識グラフを利用して学習効果を最適化します。
  3. 優れた性能:複数の基準データセットで競争力のある結果を実現し、高い堅牢性を示しました。

その他の情報

  • データセット:TCGA汎癌データセットおよび乳がんデータセットBRCAを使用しました。
  • 対比モデル:従来の機械学習方法(SVM, RF, KNNなど)および最新のディープラーニングモデル(DeepMO, MOGONET, CMSCなど)を含みます。
  • 実験設定:安定性と信頼性を確保するために、ハイパーパラメータ調整および複数回の実験を行いました。

以上の多方面にわたる検証と分析を通じて、本文で提案したMPK-GNNフレームワークは多組学データ分析において大きな可能性を示しており、精密医療の研究および応用に新たな視点と手法を提供することが期待されます。