ACImpute: 制約を強化した平滑化ベースの単一細胞RNAシーケンスデータの補完手法
単細胞RNAシーケンシング(single-cell RNA sequencing, scRNA-seq)技術は、近年、生物学および医学研究において広く応用されています。この技術は、個々の細胞のトランスクリプトーム情報を明らかにし、科学者が細胞の異質性と複雑性をより深く理解するのに役立ちます。しかし、scRNA-seqデータには「ドロップアウトイベント」(dropout events)という普遍的な問題が存在します。これらのイベントにより、多くの遺伝子が単一細胞内でゼロ値として記録されます。これらのゼロ値は2つのカテゴリーに分類されます。1つは「生物学的ゼロ」(biological zeros)で、遺伝子がその細胞内で実際に発現していないことを示します。もう1つは「技術的ゼロ」(technical zeros)で、シーケンシング技術の制約により遺伝子発現が検出されなかったことを示します。このデータのスパース性は、細胞クラスタリングや軌跡推論などの後続分析の精度と有効性に深刻な影響を与えます。
この問題を解決するために、研究者たちはモデルベースの補完、データ平滑化、行列分解など、さまざまな補完方法(imputation methods)を開発してきました。しかし、既存の方法は大規模データを処理する際に過剰平滑化(oversmoothing)の問題を引き起こすことが多く、細胞間の異質性が失われ、分析結果の精度に影響を与えます。そのため、遺伝子発現を効果的に回復させ、細胞間の異質性を保持する補完方法の開発が重要な研究課題となっています。
論文の出典
本論文は、武漢工程大学数学与物理学院のWei Zhang、Tiantian Liu、Han Zhang、Yuanyuan Liによって共同執筆され、連絡著者はYuanyuan Liです。論文は2025年に「Bioinformatics」誌に掲載され、タイトルは「ACImpute: A Constraint-Enhancing Smooth-Based Approach for Imputing Single-Cell RNA Sequencing Data」です。論文のコードはGitHubでオープンソース化されており、研究者が使用および改良できるようになっています。
研究のプロセスと結果
1. データの前処理
研究の第一段階として、元のscRNA-seqデータの前処理を行いました。異なる細胞はシーケンシングプロセス中に実験操作やキャプチャ効率の違いなどの技術的影響を受ける可能性があるため、データを正規化する必要があります。正規化された行列は、変動係数(coefficient of variation)を計算し、高変動遺伝子を選別することで、後続のクラスタリングの精度を向上させます。
結果:正規化されたデータ行列と高変動遺伝子行列は、後続の補完分析の基盤となりました。
2. マルコフ遷移行列の計算
次に、研究チームは高変動遺伝子行列を使用して、安定した遷移確率行列(Markov transition matrix)を計算しました。まず、主成分分析(PCA)を使用して高次元データを次元削減し、ノイズを減らして計算効率を向上させます。その後、K近傍(KNN)戦略に基づいて細胞間の親和性行列(affinity matrix)を計算し、対称化と正規化を経てマルコフ遷移行列を取得します。
結果:安定した遷移確率行列は、後続の補完に細胞間の遷移確率情報を提供しました。
3. べき乗指数の計算
補完効果をさらに最適化するために、研究チームは遺伝子発現レベルとドロップアウト率の間に負の相関関係があることに基づいて、べき乗指数行列(power exponent matrix)を設計しました。具体的には、遺伝子発現レベルが低いほどドロップアウト率が高くなるため、補完プロセスにおいて低発現遺伝子の遷移確率をより強く制約します。正規化処理を通じて、べき乗指数行列の範囲は1から3に制限されます。
結果:べき乗指数行列は、異なる発現レベルの遺伝子の遷移確率を効果的に制約し、過剰平滑化を防ぎました。
4. 単細胞データの補完
最後に、研究チームはべき乗指数行列と遷移確率行列を組み合わせて補完行列を計算しました。補完行列は逆正規化処理を経て、元の行列のゼロ値を置き換えることで、最終的な補完結果を得ました。
結果:補完後のデータ行列は、遺伝子発現を効果的に回復させ、細胞間の異質性を保持しました。
実験検証
1. 相関分析
ACImputeの補完効果を検証するために、研究チームは2つのデータセットを使用して相関分析を行いました。最初のデータセットでは、既知の濃度のERCC遺伝子を参照基準として使用し、2番目のデータセットではバルクRNAシーケンシングデータを参照基準として使用しました。その結果、ACImputeは遺伝子発現の回復において他の補完方法を大幅に上回りました。
結果:ACImputeは相関分析において優れた性能を示し、遺伝子発現を効果的に回復させました。
2. クラスタリング分析
研究チームはさらに6つの実データセットを使用してクラスタリング分析を行い、調整ランド指数(ARI)、正規化相互情報量(NMI)、純度(purity)の3つのクラスタリング評価指標を使用しました。その結果、ACImputeはほとんどのデータセットにおいて他の補完方法よりも優れたクラスタリング性能を示しました。
結果:ACImputeはクラスタリング分析において優れた性能を示し、異なる細胞タイプを効果的に分離しました。
3. 軌跡推論
最後に、研究チームはMonocle2アルゴリズムを使用して補完後のデータの軌跡推論分析を行いました。その結果、ACImputeは軌跡推論において他の方法を上回り、細胞分化プロセスの動的変化をより良く反映しました。
結果:ACImputeは軌跡推論において優れた性能を示し、細胞分化の軌跡を効果的に明らかにしました。
結論と意義
本論文は、平滑化制約に基づく補完方法ACImputeを提案し、異なる発現レベルの遺伝子の遷移確率を制約することで、過剰平滑化の問題を効果的に防止しました。実験結果は、ACImputeが遺伝子発現を効果的に回復させ、細胞間の異質性を保持し、クラスタリング分析と軌跡推論において優れた性能を発揮することを示しています。ACImputeの提案は、scRNA-seqデータの補完に新しい視点を提供し、重要な科学的価値と応用の可能性を持っています。
研究のハイライト
- 革新性:ACImputeは、異なる発現レベルの遺伝子の遷移確率を制約することで、過剰平滑化の問題を効果的に防止しました。
- 効率性:ACImputeは、大規模データを処理する際に時間的な優位性を持ち、迅速に補完分析を完了できます。
- 広範な応用:ACImputeはクラスタリング分析と軌跡推論における優れた性能により、生物学および医学研究において幅広い応用の可能性を持っています。
今後の展望
ACImputeは補完効果において顕著な進歩を遂げましたが、まだ改善の余地があります。例えば、べき乗指数行列を計算する際に、パラメータnの選択が補完結果の精度に影響を与える可能性があります。今後、研究チームはアルゴリズムをさらに最適化し、異なるデータセットのニーズに適応し、生物学的ゼロと技術的ゼロを区別できるようにすることを計画しています。