単一細胞統一極性評価による免疫細胞の極性分析
免疫細胞は多様な刺激に応答してサイトカイン駆動の極化を経て、その転写プロファイルや機能状態が変化します。この動的なプロセスは、健康や疾患における免疫応答の中心的な役割を果たしています。しかし、単一細胞RNAシーケンシング(scRNA-seq)データにおけるサイトカイン駆動極化を評価するための体系的なアプローチはこれまで欠けていました。この問題を解決するために、研究者たちは単一細胞統一極化評価(SCUPA)を開発しました。これは、免疫細胞極化を包括的に評価する初めての計算手法です。
論文の出典
この論文は、Wendao LiuとZhongming Zhaoによって共同執筆されました。彼らはそれぞれThe University of Texas MD Anderson Cancer Center UTHealth Houston Graduate School of Biomedical SciencesとCenter for Precision Health, McWilliams School of Biomedical Informatics, The University of Texas Health Science Center at Houstonに所属しています。この論文は2025年2月25日にBioinformatics誌に掲載されました。
研究の流れ
1. データ収集と前処理
研究者たちはまず、Single Cell Portalから免疫辞書(Immune Dictionary)のscRNA-seqデータセットをダウンロードしました。このデータセットには、86種類のサイトカイン処理されたマウスのリンパ節における免疫細胞の単一細胞転写プロファイルが含まれています。さらに、SeuratDataやGene Expression Omnibus (GEO)データベースから、IFN-β処理されたヒト末梢血単核球(PBMC)データセット、サイトカイン処理されたヒトマクロファージデータセット、IL-2処理されたマウス脾臓データセット、および汎がん浸潤性骨髄系細胞データセットなどの関連データセットをダウンロードしました。
2. 細胞埋め込みの生成と次元削減
研究者たちは、単一細胞基礎モデルUniversal Cell Embeddings (UCE)を使用して、すべてのscRNA-seqデータセットの細胞埋め込み(cell embeddings)を生成しました。次元削減のために、UCE細胞埋め込みに対して主成分分析(PCA)を行い、最初の20主成分を機械学習モデルの入力特徴として使用しました。さらに、データ可視化のために2次元のUMAP図を生成しました。
3. 完全に極化した細胞の識別
研究者たちは、各極化状態の完全に極化した細胞を以下の3つの基準に基づいて識別しました:(1)細胞が特定の駆動サイトカイン処理されたサンプルに由来すること;(2)細胞中の極化マーカー遺伝子の平均発現量が他のほとんどの細胞よりも高いこと;(3)細胞のUCE細胞埋め込みが、駆動サイトカイン処理されたサンプルの他の細胞と類似していること。「埋め込みシフト」とコサイン類似度を計算することで、研究者たちは完全に極化した細胞を選び出し、機械学習モデルのトレーニングに使用しました。
4. 機械学習モデルのトレーニングとテスト
研究者たちは、ロジスティック回帰、サポートベクターマシン(SVM)、ランダムフォレスト、および半教師あり学習法を含む複数の機械学習モデルをテストしました。最終的に、SVMモデルがすべての極化状態において最も優れた性能を示したため、これを選択しました。モデルのトレーニングでは、非極化細胞は0、完全に極化した細胞は1としてラベル付けされました。モデルは20回の繰り返しトレーニングとテストを行い、平均AUROC値を計算しました。
5. 統計的不確実性の定量化
免疫細胞極化は連続的なプロセスであるため、研究者たちはconformal predictionを使用して極化評価における統計的不確実性を定量化しました。非整合性スコア(nonconformity scores)を計算することで、モデルは各細胞を極化、非極化、中間状態、または不確定として予測することができます。
6. データセット間のバッチ効果補正
SCUPAの異なるデータセット間での転移性を高めるために、研究者たちはシンプルで効果的なデータセット間バッチ効果補正方法を提供しました。UCE細胞埋め込みを調整することで、モデルは複雑なデータ統合プロセスを回避し、極化情報を保持することができます。
7. 単一細胞基礎モデルのベンチマークテスト
研究者たちは、UCE、scGPT、scFoundationの3つの単一細胞基礎モデルの細胞埋め込みを使用して免疫細胞極化を予測する効果を比較しました。その結果、UCEとscFoundationモデルは極化状態の予測において同様の性能を示しましたが、scGPTモデルの性能は低かったです。
主な結果
1. SCUPAフレームワークと免疫細胞極化状態
SCUPAは免疫辞書中の免疫細胞極化状態を参照として使用し、機械学習モデルをトレーニングしてサイトカイン処理されたサンプル中の極化細胞と非極化細胞を区別します。UCE細胞埋め込みを使用することで、SCUPAは異なる種や実験条件における極化細胞を効果的に捕捉することができます。
2. SCUPAの体外サイトカイン刺激データセットにおける性能
IFN-β処理されたヒトPBMCデータセットにおいて、SCUPAは刺激された細胞と非刺激細胞を正確に分類し、AUROC値は0.99以上でした。サイトカイン処理されたヒトマクロファージデータセットでは、SCUPAは異なるサイトカイン駆動の極化状態を識別し、異なる極化状態間の相関関係を明らかにしました。
3. SCUPAの体内サイトカイン治療データセットへの応用
IL-2処理されたマウス脾臓データセットにおいて、SCUPAはIL-2駆動の極化状態を明らかにし、IL-2治療が極化細胞の割合を著しく増加させたことを発見しました。
4. SCUPAの汎がん浸潤性骨髄系細胞データセットにおける分析
SCUPAは、汎がん浸潤性骨髄系細胞データセットにおいて、異なるがんタイプにおける骨髄系細胞の極化状態と炎症反応を明らかにしました。例えば、リンパ腫(lymphoma)の骨髄系細胞は最も高い炎症性極化スコアを示し、膵臓癌(pancreatic adenocarcinoma)と腎癌(kidney cancer)の骨髄系細胞は低い極化スコアを示しました。
結論
SCUPAは、免疫細胞極化を包括的に評価する初めての計算手法であり、単一細胞基礎モデルUCEの細胞埋め込みを利用して、異なる極化状態の転写変化を効果的に捕捉します。この方法は、複数の独立したデータセットでその正確性を検証し、腫瘍浸潤性骨髄系細胞の異なるがんタイプにおける極化特性を明らかにしました。SCUPAは、免疫細胞極化の研究に新しいツールを提供し、特にサイトカイン治療における応用において重要な可能性を秘めています。
研究のハイライト
- 初めての体系的免疫細胞極化評価手法:SCUPAは、scRNA-seqデータにおけるサイトカイン駆動極化評価の空白を埋めます。
- 単一細胞基礎モデルUCEの活用:UCE細胞埋め込みを使用することで、SCUPAは異なる種や実験条件における極化細胞を捕捉できます。
- 複数の独立データセットでの検証:SCUPAは、体外および体内実験データセットにおいて優れた性能を発揮し、極化細胞を正確に分類できます。
- 腫瘍浸潤性骨髄系細胞の極化特性の解明:SCUPAは、汎がん浸潤性骨髄系細胞データセットにおいて、異なるがんタイプにおける極化状態と炎症反応を明らかにしました。
その他の価値ある情報
SCUPAのコードはGitHubで公開されており(https://github.com/bsml320/scupa)、研究者は自由にこの手法を使用し、拡張することができます。さらに、SCUPAは広く使用されているSeuratパイプラインに簡単に統合できるように設計されており、包括的な単一細胞データ分析を容易にします。