単細胞軌跡の遺伝子レベルアラインメント
遺伝子レベルの単一細胞軌跡アライメント:動的プログラミングに基づく新手法
シングルセルRNAシーケンシング(Single-cell RNA sequencing, scRNA-seq)技術の出現により、生物学研究が飛躍的に進展し、時間や空間における単細胞レベルでの動的変化を観察することが可能になりました。しかしながら、サンプル間や条件(例えば、対照と薬剤処理、体内と体外実験、健康と疾患など)の動的変化を比較するには未だ多くの課題があります。本研究では、新たに開発された「genes2genes」と呼ばれるツールを通じて、単細胞軌跡アライメントにおける重要な課題、特に遺伝子レベルでの動的変化の精確なマッチングを実現しようとしています。
本論文は、Wellcome Sanger Institute、ケンブリッジ大学、コロンビア大学などの研究機関の研究者により共同執筆され、Sarah A. Teichmann教授が責任著者を務めています。本研究は《Nature Methods》に2024年9月19日に発表されました。本研究では、ベイズ情報理論と動的プログラミングフレームワークを活用して単細胞軌跡間のマッチングおよびミスマッチを最適化し、既存手法が仮定依存性が高く、挿入や削除状態を捉えられないといった制限を克服しようとしています。
研究背景と技術的課題
単細胞軌跡アライメント(trajectory alignment)は、遺伝子発現の動的な類似性または差異を探ることで、異なる条件下での細胞状態の変化を解析する手法です。この中で、「疑似時間軌跡推定」(pseudotime trajectory inference)は、単細胞の動的変化を研究する上で重要な技術として注目されています。疑似時間は細胞の時間的な挙動を順序付け、生物学的プロセスの連続性を捉えます。しかし、これらの解析手法は多くの場合、動的時間伸縮(Dynamic Time Warping, DTW)アルゴリズムに依存していますが、この従来の方法には以下のような制限があります: 1. 参照軌跡の全ての時間点がクエリ軌跡内で対応点を見つけられるという仮定。 2. 軌跡内のミスマッチ(挿入や削除による未観測状態)を識別できないこと。 3. ユークリッド距離などの単純な指標を使用し、遺伝子発現の分布の複雑な変化を捉えられないこと。
これらの課題を解決するために、本研究では新しいフレームワークgenes2genes (g2g)を開発し、動的プログラミングと情報理論の手法を組み合わせて、遺伝子レベルでの参照軌跡とクエリ軌跡間のマッチングおよびミスマッチを高精度で生成することを目指しました。
研究設計と方法フロー
1. 研究方法の概要
genes2genesは、Gotohの動的プログラミングアルゴリズムを改良し、五つの状態(5ステートモデル)を含める形に拡張しています。一対一のマッチ(match, m)、拡張マッチ(one-to-many expansion warp, v)、圧縮マッチ(many-to-one compression warp, w)、挿入(insertion, i)、削除(deletion, d)を含む軌跡のアライメントにより、時間点の細胞状態のマッチおよびミスマッチを同時に捉えることが可能になります。
さらに、研究者はベイズ情報理論の最小メッセージ長(Minimum Message Length, MML)推論法を導入し、参照軌跡およびクエリ軌跡における対応時間点の遺伝子発現分布の違いを精密に評価しました。この方法は、従来のユークリッド距離と比較して、発現の平均値と分散の差異をより正確に定量化できます。
2. データ前処理と補間分析
軌跡上の時間点が一様かつ滑らかになることを保証するため、分布補間(distributional interpolation)法を採用しました。具体的な手順は以下の通りです: - 軌跡疑似時間軸を正規化し、その範囲を[0,1]に統一化。 - m個の等間隔補間点を選択。 - 各補間点について、高斯カーネルに基づき、その周辺疑似時間範囲内の単細胞遺伝子発現分布の平均および分散を推定し、補間後の発現分布を生成。
この方法により、軌跡内で変化の大きい領域を詳細に補間することが可能となり、その後のアライメントの信頼性を向上させます。
3. 動的プログラミングスコアリング機構とアライメントアルゴリズム
精密なマッチングを実現するため、研究者はメッセージ伝達モデルに基づく情報量計算方式を設計しました。各時間点ペアについて以下の二つのコストを計算します: - マッチングコスト:参照軌跡点とクエリ軌跡点の遺伝子発現分布に基づき、MML推論フレームワークを使用して単一モデルと独立モデルのメッセージ長差を計算。 - 状態遷移コスト:五つの状態モデルを基に、各状態間の遷移確率を考慮。
動的プログラミングの核心は、前段階の最適スコアに基づき次段階のスコアマトリックスを導出し、最終的にはマトリックスから逆方向に追跡することで最適アライメントパスを取得する点にあります。
研究結果
1. シミュレーションデータの検証
研究ではまず、三種類(マッチング、軌跡分岐、軌跡収束)のシミュレーションデータでg2gの性能を検証しました。軌跡ペア3,500組を生成した結果、既存の方法(例えばcellalignやtragedy)と比べてg2gは遺伝子レベルのアライメントの精度が顕著に向上し、正確率は99%以上に達しました。特に、軌跡分岐や収束を処理する際、g2gは正しいマッチングおよびミスマッチ領域を正確に捉え、ミスマッチ区間の長さ分布予測においても向上を見せました。
2. 実際の生物データ応用
a. 炎症モデルにおける遺伝子ダイナミクスの解析
骨髄由来樹状細胞(マウス)を用いた刺激データセットでは、g2gは重要な抗ウイルス遺伝子(例えばirf7およびstat2)の二つの刺激条件(PamおよびLPS)間での初期発現ミスマッチおよび後期発現ピークミスマッチを発見し、免疫応答動態における細胞亜群の変化を正確に明らかにしました。
b. 肺線維症における細胞分化の対比
特発性肺線維症(Idiopathic Pulmonary Fibrosis, IPF)の患者と健康な肺からの上皮細胞分化軌跡の比較により、IPFに特異的なaberrant basaloid細胞の異常分化パターンがEMT(上皮間葉転化)関連遺伝子(例えばNNMTおよびCAMK1D)の早期発現変化と関連していることが判明しました。これはIPFにおける病的分化の潜在的な制御標的を示唆しています。
c. 体外および体内T細胞分化の最適化
体外で誘導された多能性幹細胞から成熟T細胞への分化過程と、体内胸腺発生を比較した結果、体外成熟T細胞においてTNFシグナル経路が欠如していることが明らかになりました。g2g解析の結果を基に、分化後期にTNFを補充した実験では、体外で培養されたT細胞が体内成熟T細胞により近い性質を示しました。
3. 研究結論と意義
本研究は革新的な単細胞軌跡アライメントフレームワークを提案しただけでなく、多くの実際の生物学的比較解析を通じて、その動的な遺伝子発現パターンを明らかにし、体外細胞培養の最適化における潜在的な応用価値を示しました。特に、疾患モデル、器官オルガノイドの最適化、新たな治療標的の発見といった分野において、g2gは精密な解析ツールを提供します。
4. 研究のハイライト
- 革新的なアルゴリズム設計:動的プログラミングと情報理論を組み合わせ、従来のDTWの制限を克服。
- 遺伝子レベルの分解能:遺伝子単位でのアライメントが分子レベルでの軌跡差異を明らかに。
- 広範な適用性:シミュレーションおよび実データの両方で優れた性能を示し、さまざまな単細胞研究の背景で適用可能。
- 使いやすさ:g2gはオープンソースツールを提供しており、単細胞データ解析の敷居を下げています。
g2gの登場は、単細胞軌跡比較研究に新たな方向性を切り開き、疾患モデリング、細胞状態解析、体外実験の最適化などの分野で重要な可能性を持っています。