共有ユニットとマルチチャネル注意メカニズムを用いたcircRNAと疾患の関連性の予測
背景紹介
近年、環状RNA(circRNA)は新たな非コードRNA分子として、疾患の発生、進行、治療において重要な役割を果たしています。circRNAは独特の環状構造を持ち、ヌクレアーゼによる分解を受けにくいため、潜在的なバイオマーカーや治療標的として注目されています。しかし、実験的手法を用いてcircRNAと疾患の関連を研究するには時間とコストがかかり、関連研究の進展を妨げています。この問題を解決するため、研究者たちはバイオインフォマティクス手法を用いてcircRNAと疾患の関連を予測する計算モデルの開発に取り組んでおり、実験研究の指針を提供しています。
多視点学習手法はcircRNAと疾患の関連予測に広く用いられていますが、既存の手法は異なる視点間の潜在的な情報を十分に活用できておらず、また異なる視点の重要性の違いを無視していることが多いです。そこで、ハルビン工業大学と電子科技大学の研究チームは、共有ユニットとマルチチャネルアテンションメカニズムを組み合わせた新しい手法「MSMCDA(Multi-view Shared Units and Multi-channel Attention Mechanisms for circRNA-Disease Association Prediction)」を提案し、circRNAと疾患の関連をより効率的に予測することを目指しています。
論文の出典
本研究は、ハルビン工業大学コンピュータサイエンス・テクノロジー学部のXue ZhangとChunyu Wang、および電子科技大学基礎・フロンティア科学研究院のQuan ZouとMengting Niuが共同で行いました。論文は2025年に『Bioinformatics』誌に掲載され、タイトルは「Predicting circRNA–disease associations with shared units and multi-channel attention mechanisms」です。論文のソースコードとデータはGitHubで公開されており、他の研究者が利用・改善できるようになっています。
研究の流れと結果
1. データセットの構築
研究では、circRNA-疾患関連の公開データセット5つ(circR2Disease、circR2Diseasev2.0、circRNADisease、circ2Disease、circRDS)を使用しました。これらのデータセットには、数百から数千の検証済みcircRNA-疾患関連が含まれています。類似性ネットワークを構築するために、研究では疾患間の関連を測定するために意味的類似性とガウス相互作用プロファイル(GIP)類似性を、circRNA間の関連を測定するために機能的類似性とGIP類似性を採用しました。さらに、circRNAと疾患間の構造情報を捕捉するためにメタパスネットワークも構築しました。
2. 特徴抽出と共有ユニットの設計
研究では、グラフ畳み込みネットワーク(GCN)を用いて類似性ネットワークとメタパスネットワークから特徴を抽出しました。異なる視点間の情報交換を強化するために、研究チームは共有ユニットを設計し、線形操作モジュールを通じて類似性ビューとメタパスビューの特徴融合を促進しました。共有ユニットの導入により、モデルは異なる視点間の潜在的な情報をより効果的に捕捉できるようになり、予測精度が向上しました。
3. マルチチャネルアテンションメカニズム
異なる類似性ビューが予測結果に与える影響を調整するために、研究ではマルチチャネルアテンションメカニズムを導入しました。このメカニズムは、グローバル平均プーリングと全結合層を用いて各ビューの重要度係数を計算し、畳み込みニューラルネットワークで複数の類似性ビューの特徴を統合します。実験結果から、アテンションメカニズムがモデルの性能を大幅に向上させることが明らかになりました。
4. コントラスティブ学習
研究では、コントラスティブ学習戦略も採用し、正のサンプル間の類似性を最大化し、負のサンプル間の類似性を最小化することで特徴表現を強化しました。コントラスティブ学習の導入により、モデルのcircRNAと疾患の関連を捕捉する能力がさらに向上しました。
5. モデルの訓練と評価
研究では、Adamオプティマイザを使用してモデルを訓練し、5分割交差検証を通じてモデルの性能を評価しました。実験結果から、MSMCDAは5つのデータセットにおいてAUC(曲線下面積)とAUPR(適合率-再現率曲線下面積)の両方で他のベースラインメソッドを大きく上回ることが示されました。例えば、circR2Diseaseデータセットでは、MSMCDAのAUCは0.976に達し、2番目に良い手法よりも0.022高い結果を示しました。
6. ケーススタディ
モデルの実用性を検証するため、研究では大腸癌、胃癌、非小細胞肺癌に対するケーススタディを行いました。既知のcircRNA-疾患関連を除去し、モデルを再訓練することで、複数の新しい関連を予測し、文献検索を通じてこれらの予測の正確性を検証しました。例えば、研究で予測されたcirc-ZNF609と大腸癌の関連は実験的に確認されており、MSMCDAが新しいcircRNA-疾患関連を発見する上で重要な価値を持つことを示しています。
結論と意義
MSMCDAは、共有ユニットとマルチチャネルアテンションメカニズムを導入することで、既存の手法が多視点情報の活用と視点の重要性調整において抱える課題を解決しました。実験結果から、この手法がcircRNAと疾患の関連予測において優れた性能を持つことが明らかになり、疾患の診断と治療に新たなバイオマーカーや標的を提供できる可能性が示されています。さらに、MSMCDAのオープンソース実装は、他の研究者にとって貴重なツールとなり、circRNA関連研究のさらなる発展に寄与することが期待されます。
研究のハイライト
- 共有ユニットの設計:類似性ビューとメタパスビューの間の情報交換を促進し、モデルの予測能力を大幅に向上させました。
- マルチチャネルアテンションメカニズム:異なるビューの重要性を自動的に調整し、特徴統合プロセスを最適化しました。
- コントラスティブ学習の応用:特徴表現を強化し、モデルの性能をさらに向上させました。
- 広範なデータセットでの検証:5つの公開データセットでの実験により、MSMCDAの堅牢性と汎用性が実証されました。
- 実用的な価値:ケーススタディにより、モデルが新しいcircRNA-疾患関連を発見する上での有用性が確認されました。
今後の展望
MSMCDAは大きな成果を上げていますが、研究チームはその限界も指摘しています。例えば、現在使用されているメタパスの数が限られているため、より包括的な情報を捕捉するためにさらに多くのメタパスを導入することが考えられます。また、遺伝子発現データやタンパク質相互作用データなど、他の種類の生物学的データを統合することで、モデルの予測性能をさらに向上させることができるかもしれません。研究チームは、今後の研究でこれらの方向性を探り、MSMCDAの応用価値をさらに高めることを計画しています。