ジェノタイプ表現グラフを使用したバイオバンク規模データの効率的な分析

ジェノタイプ表現グラフ(GRG)に基づく研究:バイオデータ分析効率の向上を実現する新たなフレームワーク

学術的背景と研究の動機

シーケンシング技術の急速な進歩に伴い、特に人間の疾病関連研究分野において、大規模なゲノムデータの収集がますます一般的になってきています。2023年末には、英国バイオバンク(UK Biobank)がそのクラウドコンピューティングプラットフォーム上で約50万件の全ゲノムデータをリリースし、そのうち20万件が位相(phased)処理が完了しました。このような膨大なデータセットは研究に前例のない機会を提供しますが、同時に新たな課題ももたらします。すなわち、これほど大規模なゲノムデータを効率的に符号化し分析するにはどうすればよいかという課題です。伝統的な2次元の表形式データ構造(例: VCFファイル形式)は、ストレージや計算効率の面でボトルネックを抱え、増え続けるデータの需要に対応することが困難です。

このような背景から、研究者たちは圧縮率と計算性能の最適化を目指し、新しいデータ表現および処理手法を提案してきました。本研究の目的は、バイオバンクレベルのデータ分析ニーズに対応するため、コンパクトで高性能なデータ構造を開発することです。

論文の出所

本論文のタイトルは「Enabling Efficient Analysis of Biobank-scale Data with Genotype Representation Graphs」であり、Drew Dehaas、Ziqing Pan、Xinzhu Weiの3名の著者によって執筆され、*Nature Computational Science*誌に掲載されました。著者らはすべてコーネル大学(Cornell University)の計算生物学部に所属しており、DehaasとPanが本論文の共同第一著者、Xinzhu Weiが責任著者です。

研究のプロセスと技術手法の詳細

研究開発の核心:Genotype Representation Graph (GRG)

研究チームは、Genotype Representation Graph(GRG、ジェノタイプ表現グラフ)と呼ばれるデータ構造を提案し、従来の表形式の符号化が抱えるストレージおよび分析効率の問題をグラフ構造を通じて解決しようとしています。GRGは完全に接続された階層的DAG(Directed Acyclic Graph、有向非巡回グラフ)であり、位相の揃った全ゲノム多型を無損失(losslessly)で表現することができます。

GRGの核心構造の特徴:

  1. ノードタイプ:ノードはサンプルノード(Sample Node)、変異ノード(Mutation Node)、内部ノード(Internal Node)に分類されます。サンプルノードはハプロイドゲノムを表し、具体的な変異(参照配列からの逸脱)は変異ノードとして符号化されます。
  2. 有向非巡回グラフ(DAG)の特性:GRGで構築されたグラフには重複パスが存在しません。ある変異ノードからサンプルノードへのパスは1つしかありません。
  3. 階層化設計:内部ノードを介して複数のサンプル間で共有されているジェノタイプ情報を効率的にカバーし、冗長な関係を簡略化します。

研究方法と実験プロセス

研究チームはGRGの構築と検証のために、アルゴリズムの開発、シミュレーションデータを用いたテスト、さらには実際の生物学的データへの応用といった一連の実験ステップを設計しました。

(1) GRG構築アルゴリズム

構築アルゴリズムは以下の4つの主要なステップで構成されます: 1. ゲノム分断:先にゲノムを固定長(50–150キロベースペア、kilobase pairs, kbp)のセグメントに分断します。 2. ローカルツリーグラフ(Tree GRG, TGRG)の構築:各セグメントに対して、ハミング距離(Hamming Distance)を用いてサンプル間の変異の類似性を測定し、祖先関係のツリーを作成します。 3. 変異マッピング(Mutation Mapping):局所的なグラフに基づいて各セグメントの変異データを正確に位置づけ、対応するノードへとマッピングします。 4. グローバルグラフの結合:すべてのローカルツリーグラフを統合して1つのグローバルGRGを作成し、ノード番号とグラフ構造を最適化します。

本アルゴリズムでは、高速のブルームフィルター(Bloom Filter)とBKツリー(BK-tree)を使用して近隣ノードの探索を高速化し、構築コストを大幅に削減しています。

(2) シミュレーションデータでのテスト

GRGの性能をテストするため、研究チームはmsprimeツールを用いて10から100万のハプロイドサンプルを含むシミュレーションデータを生成しました。変異率と組換え率はそれぞれ10-8(各塩基対/世代)に設定されています。実験では、GRGの構築効率、ファイルサイズ、および実行メモリ要件が検証されました。その結果、GRGは100万サンプルにおいても10GBのメモリのみを必要とし、ファイルサイズも5–26GB(染色体ごと)に収まり、高い拡張性が示されました。

(3) 英国バイオバンクデータへの適用

チームはさらに、20万の位相ゲノムデータを含む英国バイオバンクデータを利用してGRGの有用性をテストしました。マルチスレッドの並列化(70コアのCPUを使用)により、全22染色体のGRG構築をわずか14時間で完了し、ファイルサイズはVCFファイルの13分の1にまで圧縮され、総データ量は160GB未満に抑えられました。

(4) グラフトラバーサルと動的計算

GRGのグラフトラバーサルは動的計画法(Dynamic Programming)をサポートしており、計算中間結果を再利用できます。例えば、アレル頻度(Allele Frequency)やゲノムワイド関連解析(Genome-Wide Association Study, GWAS)において、上向きまたは下向きのトラバーサルを用いて計算速度を大幅に向上させることができます。興味深いことに、この手法は数値最適化における再帰的なサブ問題解決戦略と類似しています。

ソフトウェアの実装とエコシステムの拡張

研究チームは、GRGの構築と計算をサポートするオープンソースツールライブラリGRGLを開発し、大規模ゲノムデータの処理を大幅に簡素化しました。

研究結果と主要な発見

  1. ファイルストレージ効率:従来のVCFおよびBGENフォーマットと比較して、GRGでの英国バイオバンク20万ゲノムデータの圧縮率は13倍となり、圧縮後のファイルは追加の解凍処理を必要とせず、より効率的な処理が可能となりました。
  2. 計算効率:シミュレーションデータおよび実データにおいて、GRGの動的計画法による計算手法はアレル頻度分析においてVCFよりも220倍速く、GWAS分析においても従来の行列演算ツールよりも2.6倍以上速い計算速度を実現しました。
  3. 拡張性の検証:GRGは百万サンプルレベルのゲノムデータ処理をサポートし、ファイルストレージおよび計算性能はサンプルサイズの増加に対してサブリニアな成長を示し、シミュレーションデータおよび英国バイオバンクデータの両方で優れた拡張性を発揮しました。

まとめと研究価値

本論文では、大規模な生物学データ分析の新しい可能性を開拓する、ゲノムデータの効率的な表現手法GRGを提案しました。GRGは生物の遺伝的多様性の生成モデルに基づき、グラフ理論の思想を組み合わせ、データの圧縮と計算効率の向上を両立します。その潜在的な価値は以下のとおりです: 1. データ圧縮:バイオバンクレベルのデータのストレージや転送の負荷を軽減します。 2. 計算高速化:GRGを活用することで、ゲノムワイド関連解析やアレル頻度計算といった主要な遺伝統計タスクの実行効率が向上します。 3. 将来的な拡張性:GRGは人間のデータだけでなく、他の生物種やウイルス配列データ(例: SARS-CoV-2)の圧縮と分析にも応用可能です。

本研究で提案されたGRGは、データ構造分野において新たな道筋を切り開いただけでなく、統計遺伝学においてグラフ構造の潜在的な応用範囲を示しました。GRGに基づくデータ分析フレームワークは、未来のバイオインフォマティクスおよびゲノミクス研究に深遠な影響を与えることでしょう。