カスケード拡散モデルによるRNAシークエンシングデータからの腫瘍合成全スライド画像タイルの生成

RNAデータに基づいて生成された組織学スライド画像

カスケード拡散モデルに基づくRNAシーケンシングデータから腫瘍の合成全スライド画像生成

最近Nature Biomedical Engineeringに発表された「Generation of Synthetic Whole-Slide Image Tiles of Tumours from RNA-Sequencing Data via Cascaded Diffusion Models」と題する研究が広く注目を集めています。この研究はスタンフォード大学、ゲント大学、アルゴンヌ国立研究所など複数の機関の学者により共同で行われたもので、癌データの不足を解消し、癌検出における機械学習モデルの性能を向上させることを目的としています。本論文の著者にはFrancisco Carrillo-Perez、Marija Pizurica、Yuanning Zheng、Tarak Nath Nandi、Ravi Madduri、Jeanne ShenおよびOlivier Gevaertが含まれます。

研究背景と動機

癌は心血管疾患に次いで世界的に主要な死因の一つです。臨床環境において、医師は通常、視覚検査やデジタル組織スライドの分析、または患者の遺伝子発現の特異的に上昇または下降する情報を頼りに癌を診断します。しかし、これらのスクリーニング手段は費用や後方支援の制約により、同一患者に全面的に適用されることは稀です。癌は多因子、多重階層の病気であり、その影響は複数のレベルで現れます。腫瘍細胞や腫瘍微小環境細胞の遺伝子変異は機能変化を引き起こし、細胞生理に影響を与えます。そのため、全てのスクリーニング手段が不足することで、早期発見に繋がる可能性のある重要な情報が失われる可能性があります。

近年、機械学習、とりわけ深層学習(Deep Learning, DL)は癌の検出と分類において大きな可能性を示しています。RNAシーケンシング(RNA-seq)、全スライドイメージング(WSI)、マイクロRNAシーケンシング(miRNA-seq)やDNAメチル化データなどの異なる多態データを用いることにより、多くの有望な臨床決定支援システムが開発されました。しかし、癌データには二つの問題があります。まず、DLモデルはデータに基づいており、適切なトレーニングには大量のデータが必要です。さらに、多態環境下でも、生物データタイプの組み合わせは癌の検出と予後でより高い優越性を示していますが、既存のデータセットの大部分は通常欠損しているため、不完全なデータとなります。

研究内容

この研究では、生成的対抗ネットワーク(GAN)や変分オートエンコーダー(VAE)などの生成モデルを使用し、カスケード拡散モデルに基づく手法を提案します。これにより、上記の問題を解決します。研究は腫瘍組織内のRNAシーケンシングデータの潜在表現を用いて、カスケード拡散モデルが現実感のある全スライド画像タイルを合成することを示しています。

研究の主な流れは以下の通りです:

a) 研究の詳細なプロセス

  1. データの前処理と取得:研究はTCGAプロジェクトデータベースからデータを取得し、これはRNA-seqとWSIペアサンプルを含みます。RNA-seqデータはダウンロード後、初期処理が行われ、最終的に17655個の遺伝子の発現データを得ます。これらのデータはlog変換とZスコア正規化を行います。

  2. Beta-VAE生成多癌種潜在埋め込み表現:12種の癌タイプを選び、Beta-VAEモデルをトレーニングし、RNA-seqデータの低次元潜在表現を生成します。Beta-VAEのエンコーダーとデコーダーはそれぞれ2つの隠れ層で構成され、潜在空間の次元は200の特徴量です。均方誤差(MSE)とAdamオプティマイザーで250エポックをトレーニングし、最終的に得られた潜在表現はRNA-seqデータを正確に再構築できます。

  3. カスケード拡散モデルに基づくRNA-CDM生成多癌種のRNA-to-Image合成:カスケード拡散モデルは、低解像度拡散モデル(64×64ピクセル)と超解像度モデル(256×256ピクセル)を組み合わせたもので、Beta-VAEモデルで生成された潜在表現を条件としてトレーニングします。トレーニング中、画像に逐次ノイズを加え、そのノイズを除去する方法を学習します。これによりRNA-seq潜在エンコードが与えられた際に、高解像度の合成スライド画像を生成できます。

  4. モデルのトレーニングと評価:HoverNetを使用して、実際の画像と合成画像の細胞タイプを分類および分割し、生成画像の品質を評価します。さらに、統一型マニホールド近似と投影(UMAP)アルゴリズムを使用し、異なる癌組織の再構築RNA-seqデータを示すことで、モデルの一般化能力を検証します。

b) 研究の主な結果

研究は、実際の画像と合成画像において細胞の分布をHoverNetで比較することで、生成画像の信憑性を検証しました。5種の癌タイプ(肺腺癌、腎癌、子宮頸癌、結腸癌および膠芽腫)において、実際の画像と合成画像の細胞検出結果は類似していました。さらに定量分析により、生成画像が実際のデータ中の細胞形態と特定細胞割合を保持できることを示しました。RNA-seqデータ中の遺伝子発現マーカーの変化が対応する細胞タイプの発生頻度に影響を与えることも示しました。

この研究はまた、合成データを用いて事前トレーニングを行うことで、バイオメディカル分類タスクにおける機械学習モデルの性能を向上させることを示しました。実際のデータの一部を合成データで置き換える実験により、合成データが実際のデータを正確に代替でき、かつ分類タスクの性能に影響を与えないことを示しました。さらに、全ての合成データでモデルを事前トレーニングし、少量の実際サンプルでファインチューニングを行うことで、この事前トレーニング戦略が分類モデルの正確性とF1スコアを大幅に向上させることを確認しました。

c) 研究の結論と価値

この研究で提案されたRNA-CDMモデルは、データ不足問題を解決できるだけでなく、現実的な合成スライド画像を生成することで機械学習モデルの開発と性能向上を加速させます。RNA-CDMの多癌種RNA-to-Image合成方法は、データ増強に実用的な役割を果たすだけでなく、臨床に関連した新しい形態特性を発見するためにも利用できます。

d) 研究のハイライト

  1. 手法の革新:初めてカスケード拡散モデルを用いてRNA-to-Image合成を行い、単一アーキテクチャで多種の癌タイプの組織スライド画像を生成します。これは、従来の各癌タイプごとに個別にモデルをトレーニングする必要がある方法と比較して効率的です。

  2. 広範な応用前景:合成データはデータの増強に利用できるだけでなく、機械学習モデルの事前トレーニングにも利用でき、実際のタスクの性能を効果的に向上させます。

e) その他の価値ある情報

今後の研究では、空間トランスクリプトミクス技術を組み合わせて、局所RNA発現の基準データを生成し、モデルの精度をさらに向上させることができます。さらに今後の研究は、さらに高い解像度や全スライドの生成を処理するための新しい計算戦略の開発にも注力するべきです。これらの進展は、RNA-CDMモデルの癌検出および分類への応用価値をさらに高めるでしょう。