遺伝子型-表現型ダイナミクスのマッピングのための多モーダル学習

多モーダル学習による遺伝子型と表現型の動的関係の解明

背景紹介

遺伝子型と表現型の複雑な関係は、生物学分野の核心的な問題の一つである。遺伝子型(genotype)は生物体の遺伝情報を指し、表現型(phenotype)はこれらの遺伝情報が特定の環境下でどのように表れるかを指す。1909年にWilhelm Johannsenがこれら二つの用語を提唱し、その関係を定量化しようと試みたが、一世紀以上経った現在でも、遺伝子型がどのように複雑な遺伝子発現パターンを通じて表現型を形作るかを正確に記述することはできていない。近年、単一細胞RNAシーケンシング(single-cell RNA sequencing, scRNA-seq)などの技術の発展により、細胞解像度で遺伝子発現の複雑なダイナミクスを観察することが可能になったが、これらの技術では依然として遺伝子型の組み合わせがどのように表現型を生み出すかを全面的にマッピングすることはできない。

現在の研究方法、例えばフォワードジェネティクス(forward genetics)やリバースジェネティクス(reverse genetics)は、理論的には遺伝子型と表現型の関係を解析することが可能だが、その規模と複雑さから実践的には限界がある。特に、人間の細胞では、数千の遺伝子の組み合わせが非常に多様な表現型景観を形成する。さらに、scRNA-seqは細胞間の数千の遺伝子発現の変化を明らかにするが、これらの高次元データから意味のある生物学的結論を導き出すことはさらに複雑である。近年、機械学習の発展、特に自然言語処理(natural language processing, NLP)分野から導入された自己教師ありTransformerアーキテクチャは、複雑な生物データセットの分析に新たな希望をもたらしている。

論文の出所

本論文は「Multimodal Learning for Mapping Genotype–Phenotype Dynamics」と題され、Farhan Khodaee、Rohola Zandie、Elazer R. Edelmanによって共同執筆された。彼らはそれぞれ、マサチューセッツ工科大学の医学工学および科学研究所(Institute for Medical Engineering and Science, Massachusetts Institute of Technology)およびブリガム・アンド・ウィメンズ病院の心血管医学部門(Department of Medicine, Brigham and Women’s Hospital)に所属している。この論文は2024年5月1日に受理され、2024年12月20日に「Nature Computational Science」誌オンライン版に掲載された。

研究プロセス

1. 研究目標と方法設計

本研究は、高次元の遺伝子型と表現型データを統合し、遺伝子発現と表現型の間の動的関係を同時に分析する計算フレームワークを開発することを目指している。そのため、著者らは多モーダル基盤モデル—Polygene—を提案し、自己教師あり言語モデル(self-supervised language models)を活用して遺伝子型と表現型の関係を同時にマッピングする。Polygeneモデルの核心となる革新点は、単一細胞RNAシーケンシングデータと表現型情報(性別、年齢、組織タイプ、細胞タイプなど)を組み合わせることで、遺伝子発現の生物学的背景をより深く理解することにある。

2. データ前処理とモデル入力

研究では、Tabula Sapiens単一細胞トランスクリプトームデータセットを使用し、これは24の器官から得られた約50万のヒト細胞を含む。各細胞の遺伝子発現値は正規化され、ビニング(binning)されてさらなる分析に供された。モデル入力には、遺伝子発現値と関連する表現型情報が含まれ、これらはベクトル表現としてエンコードされ、ネットワークに入力される。

3. モデルアーキテクチャと訓練

PolygeneモデルはTransformerアーキテクチャに基づいており、自己教師あり学習法を用いて事前訓練を行う。具体的には、モデルは一部の遺伝子発現値をランダムにマスク(masking)し、残りの遺伝子に基づいてマスクされた遺伝子値を予測する。この方法は、自然言語処理におけるマスク言語モデリング(masked language modeling)に類似している。訓練プロセスでは、表現型と遺伝子型はそれぞれ50%と15%の確率でマスクされ、モデルの堅牢性を確保している。

4. 結果分析と検証

モデルの性能を評価するために、著者らはPolygeneモデルの出力を多層的に分析した。まず、モデルが生成した遺伝子および表現型の埋め込み(embeddings)を用いて、細胞タイプ、組織由来、年齢、性別の分類を行った。結果、Polygeneは関連性の高い細胞タイプと状態を区別する点で、scGPTなどの他の最先進の方法よりも優れていることが示された。さらに、著者らはコサイン類似性分析を通じて、遺伝子が異なる表現型背景で動的に機能することを明らかにした。例えば、H4C3遺伝子は全ての表現型において顕著な類似性を示し、細胞増殖と細胞周期の進行における基礎的な役割を有していることが示された。

5. 遺伝子ネットワークの再構築と多機能性分析

研究のもう一つの重要な貢献は、異なる表現型背景における遺伝子ネットワークの動的構造を明らかにしたことである。内皮細胞(endothelial cells, ECs)における遺伝子ネットワークの分析を通じて、著者らは老化が遺伝子ネットワークのパワーロー分布を変化させ、ネットワーク構造が再編成されることを発見した。さらに、フォンヴィレブランド因子(von Willebrand factor, VWF)遺伝子の埋め込みを分析することで、著者らはこの遺伝子が内皮細胞において血液凝固と酸化ストレス応答に関わる二つの機能的に異なるクラスターを有していることを明らかにした。

主要な結果と論理的関係

  1. 遺伝子と表現型埋め込みの生成:Polygeneモデルは、高次元の遺伝子および表現型埋め込みを生成するのに成功し、これらの埋め込みは細胞タイプ、組織由来、年齢、性別の差異を正確に捉えることができた。例えば、モデルは心臓心室と心房組織を区別する点で優れており、これはそれらの機能的および解剖学的な緊密な関係と一致している。

  2. 遺伝子機能の多面性:VWF遺伝子の埋め込みを分析することで、研究はこの遺伝子が内皮細胞において多機能性を有することを明らかにした。これは遺伝子機能に対する我々の理解を拡大するとともに、薬物発見や細胞治療に新たな視点を提供するものである。

  3. 遺伝子ネットワークの再構築:研究は、老化が内皮細胞における遺伝子ネットワークの構造を変化させ、特に低接続度ノードの役割が変化することを示した。この発見は、KCNH8やDNJA4などの血管老化研究の新たな候補遺伝子を提供するものである。

結論と価値

本研究は、高次元の遺伝子型と表現型データを統合し、多モーダル基盤モデルPolygeneを開発することで、遺伝子型と表現型の間の複雑な動的関係を明らかにすることに成功した。この研究の科学的価値は、遺伝子発現と表現型情報を同時に分析する新たな計算フレームワークを提供し、遺伝子発現の生物学的背景に対する理解を深める点にある。応用的価値は、このモデルが組織横断的なバイオマーカーの発見、遺伝子の多機能性の解明、治療ターゲットの発見を加速する点にある。

ハイライトと革新点

  1. 多モーダル学習法:本研究は初めて自己教師あり言語モデルを遺伝子型-表現型関係の研究に導入し、統合遺伝学(integrated genetics)の新たなパラダイムを切り開いた。

  2. 多機能遺伝子の発見:VWFおよびCD55遺伝子の分析を通じて、研究は異なる細胞および表現型背景における遺伝子の多機能性を明らかにし、これは個別化医療に新たな方向性を提供するものである。

  3. 遺伝子ネットワークの再構築:研究はRNA発現データにおける遺伝子ネットワークの依存背景構造を初めて報告し、特に老化背景における遺伝子ネットワークの再構築を明らかにすることで、血管老化の理解に新たな視点を提供した。

その他の価値ある情報

  1. データとコードの公開:研究チームは、Polygeneモデルの訓練スクリプト、トランスクリプトームトークナイザー、データおよび推論の前処理コードをGitHubおよびZenodoで公開しており、他の研究者が結果を再現し、拡張することを可能にしている。

  2. 今後の研究方向:著者らは、今後、データ処理技術をさらに最適化し、モデルが多様なトランスクリプトームデータをより効率的に処理できるようにすること、そして特に個別化医療と薬物発見分野でのモデルの応用範囲を拡大することが可能であると指摘している。

本研究を通じて、我々は遺伝子発現と表現型の間の複雑な関係を深く理解するとともに、今後のゲノム研究の基盤を築くことに成功した。