遺伝子発現ダイナミクスの軌道整合

単一細胞トランスクリプトームシーケンシング(single-cell RNA sequencing, scRNA-seq)技術の登場により、細胞の発生と分化過程における遺伝子発現のダイナミクスをこれまでにない解像度で研究することが可能になりました。しかし、生物学的プロセスの複雑さから、異なる条件下での細胞発生軌跡はしばしば非対称であり、データの統合と比較に課題をもたらしています。既存の方法は通常、異なる条件下のサンプルを統合してからクラスタリング分析を行ったり、共有される軌跡を推測したりすることを前提としていますが、これらの方法は非対称な軌跡を扱う際に効果的ではなく、重要な差異発現遺伝子(differentially expressed genes, DEGs)を見逃す可能性があります。

この問題を解決するため、研究者たちは新しい手法であるTrajectory Alignment of Gene Expression Dynamics (Tragedy)を開発しました。Tragedyは、データセットの統合を行わずに、独立した細胞発生軌跡を直接整列させることができ、統合プロセスで生じるエラーを回避します。この手法の提案により、異なる条件下での細胞発生プロセスをより精密に研究するためのツールが提供されました。

論文の出典

この論文は、Ross F. LaidlawEmma M. BriggsKeith R. MatthewsAmir Madany MamloukRichard McCullochThomas D. Ottoによって共同執筆されました。著者らはUniversity of GlasgowUniversity of EdinburghNewcastle UniversityUniversity of LübeckUniversité de Montpellierなどの機関に所属しています。論文は2025年3月11日にBioinformatics誌に掲載され、タイトルは“Trajectory Alignment of Gene Expression Dynamics (Tragedy)”です。

研究のプロセスと結果

1. データの準備と補間点の生成

Tragedyの入力は、疑似時間(pseudotime)が計算された2つのscRNA-seqデータセットです。計算の複雑さとノイズを軽減するため、研究者はデータセットに補間処理を施し、ユーザー定義の数の補間点を生成しました。これらの補間点は、特定の時間ウィンドウ内の周囲の細胞の遺伝子発現パターンを表します。補間点の疑似時間ウィンドウのサイズは、細胞密度に応じて調整され、細胞密度が高い領域ではウィンドウが小さく、細胞密度が低い領域ではウィンドウが大きくなります。

2. トランスクリプトームの差異計算

次に、Tragedyは2つの軌跡のすべての補間点間のトランスクリプトーム差異を計算し、これらの差異を行列に格納します。差異の計算には、ユークリッド距離、ピアソン相関係数、またはスピアマン相関係数を使用できます。デフォルトでは、Tragedyはスピアマン相関係数を使用し、0を完全な正の相関と見なすように調整しています。

3. 最適な整列パスの特定

Tragedyは、ダイナミックタイムワーピング(Dynamic Time Warping, DTW)アルゴリズムを使用して、2つの軌跡の最適な整列パスを決定します。研究者はまず、整列パスの開始点と終了点を決定し、ブートストラップ法(bootstrapping)を使用してこれらの点を最適化します。最終的に、Tragedyは平均パススコアが最も低い整列パスを選択します。

4. 疑似時間の整列

整列パスが決定されると、Tragedyは補間点の疑似時間を調整し、一致する補間点が類似した疑似時間値を持つようにします。複数の一致がある場合、Tragedyは疑似時間値をスケーリングして処理します。最終的に、Tragedyは補間点の疑似時間を個々の細胞にマッピングし、整列プロセスを完了させます。

5. 差異発現分析

Tragedyは、スライディングウィンドウのソフトクラスタリングを使用して、2つの条件間の差異発現遺伝子を比較します。ユーザーはウィンドウの数と重複度を定義し、Tragedyはこれらのパラメータに基づいて細胞を異なるウィンドウに割り当て、各ウィンドウで統計的比較を行います。Mann-Whitney U検定とlog2FC計算を通じて、Tragedyは差異発現遺伝子を特定します。

主な結果

1. シミュレーションデータセットの整列

研究者はdyngenを使用して、2つの正のコントロールと1つの負のコントロールを含む3つのシミュレーションデータセットを生成しました。Tragedyはすべてのシミュレーションデータセットで軌跡の整列を正確に捉えることができましたが、既存の方法であるCellAligngenes2genes (g2g)は非対称な軌跡を扱う際に十分な性能を発揮しませんでした。特に、負のコントロールデータセットでは、Tragedyは2つのデータセット間に共通の生物学的プロセスがないことを正しく識別しました。

2. 実データセットへの応用

研究者はTragedyをTrypanosoma bruceiT細胞発生の実データセットに適用しました。Trypanosoma bruceiのデータセットでは、Tragedyは野生型(WT)とzc3h20ノックアウト(KO)細胞間の整列関係を正確に捉え、より多くの差異発現遺伝子を識別しました。SeurattradeSeqと比較して、Tragedyは生物学的に関連する遺伝子とプロセスの識別において優れた性能を発揮しました。

T細胞発生のデータセットでは、Tragedyは野生型とbcl11bノックアウト細胞の発生軌跡を比較し、より多くの差異発現遺伝子を識別しました。また、Tragedyの実行時間はtradeSeqに比べて大幅に短く、より豊富な生物学的洞察を提供しました。

結論と意義

Tragedyの提案により、単一細胞トランスクリプトミクスにおける軌跡整列と差異発現分析のための新しいツールが提供されました。既存の方法と比較して、Tragedyはデータセットの統合を行わずに独立した細胞発生軌跡を直接整列させることができるため、統合プロセスで生じるエラーを回避します。この手法を通じて、研究者は異なる条件下での差異発現遺伝子と生物学的プロセスをより正確に識別することができ、細胞の発生と分化を理解するためのより精密なツールを提供します。

研究のハイライト

  1. 革新的な整列手法:Tragedyは補間点とダイナミックタイムワーピングアルゴリズムを使用して、独立した軌跡の精密な整列を実現し、データセット統合中のエラーを回避します。
  2. 効率的な差異発現分析:Tragedyはスライディングウィンドウのソフトクラスタリングを使用して、異なる条件下でより多くの差異発現遺伝子を識別し、より豊富な生物学的洞察を提供します。
  3. 幅広い応用シナリオ:Tragedyはシミュレーションデータセットだけでなく、Trypanosoma bruceiT細胞発生のような複雑な実データセットにも適用可能です。

今後の展望

単一細胞シーケンシング技術の進化に伴い、Tragedyはより多くの生物学的研究に応用されることが期待されています。特にperturb-seqlineage tracing技術との組み合わせにより、Tragedyは細胞発生プロセスにおける遺伝子発現のダイナミクスをより正確に分析し、細胞運命決定のメカニズムを解明するための新たな視点を提供するでしょう。