単一サンプルの腫瘍サブクローン再構築のクラウドソースベンチマーク

群体リソースに基づく単一サンプル腫瘍サブクローン再構築アルゴリズム

背景紹介

癌の進化過程と腫瘍の遺伝的異質性は、現代腫瘍学研究の重要な分野です。腫瘍は正常細胞から進化し、体細胞変異を獲得することで徐々に発展します。これらの変異は細胞クロマチン構造や内因性及び外因性の誘変圧力の影響を受け、確率的に発生します。特定の変異が細胞に選択的優位性を提供すると、その子孫細胞は局所環境で拡大することができます。長年の蓄積を経て、最終的に多くの癌の特性を持つ細胞集団、すなわちクローンが形成されます。異なる腫瘍細胞亜群(サブクローン)は、ドリフトまたは選択圧力を通じて細胞集団内に出現します。この進化的特徴は臨床上重要であり、遺伝的異質性は予後不良、変異の多さ、耐薬性に関連しています。そのため、腫瘍の進化過程を理解し、量的に評価することは、癌治療と予後評価にとって極めて重要です。

腫瘍サブクローン再構築は、体細胞単一ヌクレオチド変異(SNVs)とコピー数異常(CNAs)のアレル頻度を利用して腫瘍の進化的特徴を量的に評価する一般的方法です。このタスクのために、多くのアルゴリズムが開発され、ベイズ推論など様々な戦略を採用しています。しかし、異なるアルゴリズムの正確性と適用性には著しい違いがあり、アルゴリズムの正確性を最適に量化する方法は未だ不明です。したがって、既存のサブクローン再構築アルゴリズムを評価し、その正確性の決定要因を特定することが特に重要です。

研究の出典と発表情報

本論文は「Crowd-sourced benchmarking of single-sample tumor subclonal reconstruction」と題され、Adriana Salcedoらによって執筆され、《Nature Biotechnology》誌に発表されました。本研究は、カリフォルニア大学ロサンゼルス校、ブリュッセル自由大学、オンタリオ癌研究所など、複数の機関からの著者の協力により実施されました。この研究はICGC-TCGA(国際癌ゲノム連盟-癌ゲノムアトラス)DREAM体細胞変異識別チャレンジ(SMC-Hetチャレンジ)に基づき、7年間にわたり、クラウドコンピューティングプラットフォームを利用して51個のシミュレーションされた腫瘍における31種類のサブクローン再構築アルゴリズムの性能を評価しました。

研究のプロセスと方法

研究設計

腫瘍サブクローン再構築アルゴリズムを評価するために、研究チームはICGC-TCGAのDREAM体細胞変異識別チャレンジとその腫瘍シミュレーションフレームワークに基づき、広範な生物学的および技術的パラメータをカバーする51個の腫瘍系統を設計しました。これらの腫瘍のうち、25個は手動で整理された全ゲノム癌解析研究(PCAWG)データに基づき、残りの26個は非PCAWG腫瘍および単一の乳癌特定のマージナルケースに基づいています。研究チームはBamsurgeonを使用して正常および腫瘍のBAMファイルをシミュレートし、GATK Mutectツールを使用して体細胞SNVsを、Battenbergツールを使用して体細胞CNAsを識別し、腫瘍純度を推定しました。

アルゴリズム評価

参加チームは31種類のコンテナ化されたワークフローを提出し、これらのすべてのワークフローは再現可能なクラウドアーキテクチャで実行されました。研究者は、ランダム予測、PCAWGの「インフォームドブルートフォース」クラスタリングアルゴリズム、単一クラスター割り当てアルゴリズム、および最先端のアルゴリズム(DPClustとPhyloWGS)の5つのリファレンスアルゴリズムを追加しました。各方法は、純度(SC1a)、サブクローンの数(SC1b)、SNV細胞浸透率(SC1c)、変異クラスター(SC2)、および系統(SC3)の7つのサブチャレンジで評価されました。SC2およびSC3は、それぞれ決定性(SC2aおよびSC3a)と確率性(SC2bおよびSC3b)のタスクを含みます。各予測は確立されたフレームワークスコアリングを使用し、スコアは{腫瘍、サブチャレンジ}ペア内で標準化されます。

主要研究結果

アルゴリズム性能評価

研究は、異なるアルゴリズムのすべての7つのタスクでの性能に顕著な違いがあることを示し、アルゴリズム選択が性能に及ぼす影響は腫瘍の特徴よりもはるかに大きいことを発見しました。具体的には、全てのタスクで最適に機能する単一のアルゴリズムは存在せず、既存の集約戦略も最良の単一方法を上回ることができなかったことが示され、サブクローン再構築アルゴリズムの分野では依然として重要な研究ニーズが存在することが示唆されました。

最良のアルゴリズム

研究チームは全ての腫瘍の中央値スコアに基づいてアルゴリズムをランク付けし、SC1aおよびSC2bでそれぞれ一つの最良の提出があり、SC1bおよびSC1cで統計的に有意差のない二つの提出があり、SC2aで統計的に有意差のない三つの提出があることを発見しました。SC1aの最良のアルゴリズムはコピー数コールのみを使用して純度を推定し、次善の方法はコピー数とSNVクラスタリングの純度推定を組み合わせていました。

影響要因分析

腫瘍およびアルゴリズムの特徴を分析することで、再構築の正確性に強い影響を与える腫瘍の特徴はごく少数であることが判明しました。特定の腫瘍特徴に対する感度は、変異検出とデータの解像度における異なるアルゴリズムの違いを説明しました。特に、腫瘍の純度、コピー数状態、および変異負担は、多くのアルゴリズムの性能に顕著な影響を与え、高スノイズモデルに基づくアルゴリズムは、SNV共クラスタリングタスクでの性能が芳しくないことが判明しました。

データの内在的特徴と実験設計の正確性への影響

研究は、実験設計における主要な制御技術的特徴がシーケンシングカバレッジであることを示しました。腫瘍の純度と倍数性を考慮したシーケンシングカバレッジを調整することにより、研究はNRPCC(染色体コピー数あたりのリード数)のサブクローン再構築への影響を量化しました。結果は、NRPCCが高いほど、アルゴリズムはSNV共クラスタリングおよび腫瘍純度推定においてより良く機能することを示しました。しかし、NRPCCが高いレベルに達すると、アルゴリズム間の違いが主要な変異源となりました。

エラー要因分析

研究はまた、SNV細胞浸透率推定のエラー要因を探求しました。ほとんどのアルゴリズムはSNVがクローン変異であるかどうかを正確に特定できましたが、低頻度のサブクローン変異を検出する際にはパフォーマンスが劣っていました。さらに、基底のコピー数状態は、SNVクローン性割り当ての正確性に顕著な影響を与え、特にサブクローンコピー数損失領域内のクローン性SNVにおいては顕著でした。高スノイズモデルに基づくアルゴリズムは低頻度変異の処理においてパフォーマンスが劣り、アルゴリズムのコピー数変動に対する頑健性はその全体的なパフォーマンスと顕著に相関していました。

結論

本研究は、51個のシミュレーションされた腫瘍において31種類の単一サンプル腫瘍サブクローン再構築アルゴリズムのパフォーマンスを体系的に評価し、アルゴリズムの選択および実験設計が再構築の正確性に重要な影響を及ぼすことを明らかにしました。研究結果は、既存の方法の応用および新方法の開発に役立ち、腫瘍の進化過程をよりよく理解するための改善に貢献します。さらに、研究チームはオンラインツールを提供し、ユーザーがデータセットと研究問題に基づいて最適なアルゴリズムを選択するのを支援します。

研究の意義

この研究は、腫瘍サブクローン再構築アルゴリズムの評価に標準を提供し、異なるアルゴリズム間の比較と改善を促進します。アルゴリズム性能の主要な影響要因を明らかにすることで、今後のアルゴリズム開発と最適化に重要な指針を提供します。同時に、この研究は癌進化研究における高品質のシーケンシングデータと適切な実験設計の重要性を強調し、臨床の癌治療と予後評価に対する貴重な参考を提供します。