インシリコ飽和変異原性によるクローン造血ドライバーミューテーションの同定

引言

健康な造血過程では、一群の造血幹細胞(Hematopoietic Stem Cells、略してHSC)が血液関連のすべての系統に貢献します。しかし、年齢が上がるにつれて、この過程はしばしばクローン性造血(Clonal Hematopoiesis、略してCH)を引き起こし、特定のHSCクローンの拡張により多くの血細胞や血小板が占められます。このクローン拡張現象は、生命過程でHSCが獲得する体細胞変異によって駆動され、高齢者において高度に一般的です。CHに関連する遺伝子変異はHSCに成長の優位性を与え、造血過程で正の選択を受けます(1-13)。近年、多くの研究がCHが血液悪性腫瘍の発症、心血管疾患、全死因死亡率、実体腫瘍、および感染症のリスク増加と関連していることを示しています(2, 7, 14-20)。最近の詳細な研究により約60のCH駆動遺伝子が確認されましたが(1, 12, 13, 21)、これらの遺伝子のどの変異がクローンの拡張を駆動するかについての理解は非常に限られています。

いくつかの研究チームは複数のCH遺伝子に関する知識を総括し、CHを最も駆動する可能性の高い変異を選択するための一連の専門家が策定したルールを設けました。これらのルールは、通常、健康な個体の血液サンプルで検出された変異に適用されます。しかし、これらのルールにはいくつかの制限があり、CH変異情報から直接学習することができず、システム的に更新することも困難であり、カバーする遺伝子の数や知識の深さにも異質性が存在します。

これらの障壁を克服するため、研究者たちは機械学習に基づく方法を採用し、高品質のCH変異データで訓練された解釈モデルを構築しました。このモデルは、CH変異の複雑なパターンを明らかにし、さらに多くのCH変異データセットが登場するにつれて拡張可能です(本文第28節)。本研究の目的は、この方法を使用して12のCH駆動遺伝子のモデルを構築し、CH駆動変異を正確に識別し、約50万人の英国バイオバンク(UK Biobank)寄贈者でこれらのモデルの性能を検証することです。

研究の出典

本稿はSantiago Demajoらによって執筆され、これらの著者はそれぞれInstitute for Research in Biomedicine (IRB Barcelona)、Centro de Investigación Biomédica en Red en Cáncer (CIBERONC)およびUniversity Pompeu Fabraなどの機関に所属します。論文は2024年9月の《Cancer Discovery》誌に発表されました。

研究プロセス

実験デザインと方法

  1. データ収集と処理

研究チームは三大癌ゲノム学コホート(TCGA、HMF、MSK-IMPACT)から33,000人以上の癌患者のデータを収集し、逆呼び出しによって生殖系汚染を排除し、高品質の血液体細胞変異データを得ました。これらのデータは機械学習モデルを訓練し、CH駆動変異を識別するために使用されました。

  1. モデル構築と検証

研究チームはXGBoost(バージョン0.90)を使用して遺伝子特異的な機械学習モデル、BOOSTDM-CHを訓練しました。モデルの訓練は、高品質の正サンプル(既知のCH駆動変異)と負サンプル(中立変異の合成集合)に依存しています。特徴には、線形シーケンス内の変異の顕著なクラスタリング、三次元折りたたみ構造内のクラスタリング、機能ドメインの濃縮、変異の結果タイプおよび脊椎動物における保存程度などが含まれています。

  1. 実験デザイン

研究者はモデル性能を評価するためにクロスバリデーション実験を設計し、同時にモデルに予測結果の解釈を行わせました(例えば、SHAP値分析に基づく特徴寄与の解析)。

主な実験結果

  1. モデル性能の評価

BOOSTDM-CHモデルはクロスバリデーションにおいて優れた性能を示し、例えばDNMT3A遺伝子に対してモデルのF50値は0.86から0.99の範囲に及びました。これらのモデルは観察されたCH変異を駆動変異か非駆動変異に分類する際に、専門家が策定したルールよりも顕著に優れていました。

  1. 大規模コホートへの応用

UK Biobankのデータセット上で、研究チームはBOOSTDM-CHモデルを適用し、467,202名の寄贈者の201,857の潜在的変異を識別し、それらを分類しました。モデルが識別したCH駆動変異は92.5%のケースで一つの駆動変異のみを持ち、実際に観察された駆動変異と類似していました。年齢、喫煙歴、心血管疾患、血液悪性腫瘍および全死因死亡などの臨床関連特性との統計的に有意な関連性が見られました。

  1. 変異分布および特徴解析

BOOSTDM-CHモデルを用いて、研究チームはモデルスコアに基づいてCH駆動変異の深部解析を行い、例えばDNMT3Aにおいては、高信頼度の変異(スコア≥0.9)は特定の領域に集中しており、これらの領域の変異がタンパク質の正常機能を顕著に妨げることを示しました。

研究の結論

本稿では、機械学習に基づくモデルを構築および検証し、12のCH駆動遺伝子の駆動変異を識別することに成功しました。これらのモデルは従来の専門家策定ルールと比較して優れた性能を示し、更に複雑なCH変異パターンおよびメカニズムを明らかにしました。BOOSTDM-CHモデルはCH駆動変異の識別の精度において卓越しており、将来の大規模コホート研究によってCHと各種疾患の関連性を明らかにするための有力なツールを提供します。

研究のハイライト

  1. 機械学習方法の応用

この研究は、機械学習方法がCH駆動変異の識別に初めて成功裏に適用されたものであり、従来の専門家策定ルールの主観的なバイアスを回避し、革新性があります。

  1. 大規模検証

研究はUK Biobankの大規模コホートでモデルの性能を検証し、モデルがCH駆動変異を正確に識別できることを示し、多くの臨床特性と有意な関連を確立しました。

  1. CHメカニズムの深部理解

BOOSTDM-CHモデルの訓練および応用を通じて、研究はCH変異が異なる遺伝子においてどのように作用するかについて新しい視点およびツールを提供します。

付加情報および将来の展望

研究チームはBOOSTDM-CHモデルおよび関連データをIntogenサイト(www.intogen.org/ch/boostdm)で公開し、研究コミュニティに利用可能としました。 さらに多くのデータセットが登場するにつれて、モデルの拡張および最適化を計画しています。将来、本モデルは大規模な回顧的または前向きな臨床研究における広範な応用が期待され、高リスク個人の健康状況の監視や個別化治療計画の策定を支援する一助となります。

結論

本研究は、機械学習に基づくBOOSTDM-CHモデルを使用してCH駆動変異を識別および解析する潜在的な可能性を示し、CH研究および大規模コホートデータの正確な分析のための新しく効果的な手法を提供しました。UK Biobankなど大規模コホートのデータを深く掘り下げることで、BOOSTDM-CHモデルは科学者がCHのメカニズムをよりよく理解するのを助け、将来の研究および臨床応用のための貴重なリソースを提供します。