シングルセルATAC-Seqデータの遺伝子セットスコアリングアルゴリズムのベンチマーク

遺伝子セット評価ツールの単細胞ATAC-seqデータに対するベンチマークテスト

著者: Xi Wang, Qiwei Lian, Haoyu Dong, Shuo Xu, Yaru Su, Xiaohui Wu
所属: パスツール学院(蘇州大学蘇州医学院)、厦門大学自動化学部、福州大学数学・コンピューターサイエンス学部
連絡著者: xhwu@suda.edu.cn
ジャーナル: 『Genomics, Proteomics & Bioinformatics』
公開日: 2024年2月9日(オンライン公開)

序論

トランスポザーゼアクセシブルクロマチン配列決定法(ATAC-seq)は、全ゲノム範囲でのクロマチンアクセシビリティを配列分析によって調べる強力で一般的なエピゲノム技術である。最近、単一細胞ATAC-seq(scATAC-seq)技術により、単一細胞でのクロマチンアクセシビリティの研究が可能になり、クロマチン制御メカニズムの新しい細胞サブグループが明らかになった。しかし、単一細胞RNA配列決定法(scRNA-seq)と比較して、scATAC-seqに対する計算モデルの開発は明らかに遅れている。遺伝子セット評価(GSS)はRNA-seqデータで広く適用されているが、scATAC-seq用のGSSツールは少ない。この隔たりを埋めるため、本研究では単一細胞RNA-seqツールと全体RNA-seqツールを含む10種類のGSSツールを包括的にベンチマークテストし、scATAC-seqデータでのパフォーマンスを比較した。

方法

本研究では、4つの全体RNA-seqツール(PLAGE、Z-score、ssGSEA、GSVA)、5つの単一細胞RNA-seqツール(AUCell、pagoda2、VISION、VAM、unipath)、および1つのscATAC-seq特有のツール(unipathatac)を含む10種類のGSSツールを体系的に評価した。評価には、8つの独立したscATAC-seqデータセットと3つのペアのscATAC-seqとscRNA-seqデータセットを含む複数のscATAC-seqデータセットを使用した。研究のワークフローには、データの前処理、遺伝子活性変換、GSSの適用、結果の評価が含まれる。データの疎性の問題に対処するため、本研究では欠損値の補完が GSS の結果に与える影響も評価した。最後に、異なる適用シナリオで適切な前処理方法とGSSツールを選択するための実用的なガイドラインを提供した。

主な結果

  • GSSツールの適用性評価: RNA-seqのGSSツールがscATAC-seqに適用可能かテストし、それらのパフォーマンスがscRNA-seqデータでの性能と同等であることがわかった。特にpagoda2とPLAGEが複数のデータセットとシナリオで最高の性能を示した。
  • 遺伝子活性変換と欠損値補完の影響: 遺伝子活性変換(GA)の異なるツールがGSSに与える影響は限定的だったが、欠損値の補完はほぼすべてのGSSツールの性能を大幅に向上させた。scaleとdrimpute に基づく補完が最も良い結果を示した。
  • GSSツールの性能: pagoda2とPLAGEが生データの処理で最高の性能を示し、欠損値を補完したデータではVISIONが全体的に最も優れた性能を示した。GSSツールの具体的な性能はデータと前処理のステップに依存する。
  • 遺伝子セットの影響: 異なる遺伝子セットの影響は比較的小さかったが、複数の遺伝子セットを用いた比較分析を行うことで、より包括的な生物学的解釈が可能になる。
  • 計算速度: VISIONとZ-scoreの計算速度が最も速く、小規模なデータセットの分析では高速なツールを優先的に考慮することを推奨する。

結論と応用価値

本研究は、体系的なベンチマークテストを通じて、RNA-seqのGSSツールがscATAC-seqデータに適用可能であることを実証し、将来の研究に新しい方法を提供した。結果は、pagoda2とPLAGEが優れた性能を示し、補完されていない生データに推奨され、VISIONは補完されたデータで最適な選択肢であることを示している。遺伝子活性変換と欠損値補完の方法がGSSの結果に大きな影響を与え、scaleまたはdrimputeを使用することで精度が向上することがわかった。実験結果は、scATAC-seqデータの処理と分析ツールの選択に実用的なガイドラインを提供し、単一細胞エピゲノミクスの発展を促進した。

実験のハイライト

  • ツールの適用性: RNA-seqツールのscATAC-seqデータへの適用性を評価し、新しい分析方法を導入した。
  • 包括的評価: 欠損値の補完と遺伝子活性変換が分析結果に与える影響を体系的に分析し、詳細な比較データと評価指標を提供した。
  • 実用的ガイドライン: 明確なツール選択ガイドラインを提供し、研究者が異なるタイプの単一細胞データを処理する際の貴重な参考資料となった。

その他の価値ある情報

本研究で使用されたすべてのデータセットは公開されており、分析スクリプトと詳細なデータ処理ワークフローも共有されている。これにより、本研究は高い再現性と応用価値を持つ。