多スケールフットプリントが明らかにするシス調節要素の組織
多スケールフットプリントが細胞分化と老化におけるシス調節要素の役割を明らかにする
背景紹介
遺伝子発現の調節は、細胞の運命と疾患発生の鍵となるメカニズムの一つであり、シス調節要素(cis-regulatory elements, CREs)がこの過程で重要な役割を果たしています。CREsは、転写因子やヌクレオソームなどの多様なエフェクタータンパク質と結合することで、遺伝子発現を動的に調節します。しかし、既存の研究方法では、特に単細胞レベルでこれらのエフェクタータンパク質のゲノム全体での結合動態を測定する際に限界があり、CREsの構造がその機能とどのように関連しているかを完全に理解することが困難でした。特に、細胞分化と老化の過程におけるCREsの役割については不明な点が多く残されています。
この問題を解決するため、MITとHarvardのBroad Institute、Harvard Universityなどの研究チームは、PRINTと呼ばれる計算手法を開発し、クロマチンアクセシビリティデータからDNA-タンパク質相互作用の多スケールフットプリントを識別することに成功しました。さらに、彼らはSeq2Printフレームワークを開発し、深層学習技術を活用して転写因子とヌクレオソームの結合を正確に推論し、CREsの調節ロジックを解明しました。この研究は2024年にNature誌に掲載され、タイトルは「Multiscale footprints reveal the organization of cis-regulatory elements」です。
研究チームと発表情報
この研究は、Yan Hu、Max A. Horlbeck、Ruochi Zhangらを中心とする複数の研究者によって共同で行われ、主にMITとHarvardのBroad InstituteおよびHarvard Universityのメンバーが参加しました。研究チームは、計算生物学と実験生物学の手法を組み合わせることで、細胞分化と老化の過程におけるCREsの動的な変化を明らかにすることに成功しました。論文は2024年11月22日に受理され、同年にオンラインで公開されました。
研究の流れと結果
1. 多スケールフットプリント検出手法の開発(PRINT)
研究チームはまず、クロマチンアクセシビリティデータからDNA-タンパク質相互作用の多スケールフットプリントを検出するためのPRINT手法を開発しました。PRINTの核心的な革新点は、Tn5トランスポザーゼの配列バイアスを克服した点にあります。このバイアスは、フットプリント検出の精度を大きく妨げる要因でした。そこで、研究チームは畳み込みニューラルネットワーク(CNN)を訓練し、脱タンパク質化されたDNA上でのTn5挿入のバイアスを予測しました。このモデルは、細菌人工染色体(BAC)データにおいて優れた性能を示し、従来のk-merや位置重み行列(PWM)モデルを大きく上回りました。
PRINT手法は、統計的手法を用いてTn5挿入の有意な減少を定量化し、フットプリントスコアを生成します。研究チームは、PRINTの有効性をin vitro実験で検証し、PRINTが転写因子(Myc/MaxやCEBPAなど)の結合部位を正確に検出できることを確認しました。一方、従来のATAC-seqフットプリント手法では、結合部位と背景信号を区別することができませんでした。
2. 深層学習フレームワークSeq2Printの開発
PRINTによって生成された多スケールフットプリントに基づき、研究チームはさらにSeq2Printフレームワークを開発しました。Seq2Printは、深層学習モデルを利用してDNA配列から多スケールフットプリントを予測し、転写因子とヌクレオソームの結合を推論します。このモデルは、局所的なDNA配列のみを入力として、ヌクレオソームと転写因子のフットプリントを予測することができ、HepG2細胞のATAC-seqデータにおいて高い予測精度(全体の相関性は0.75)を示しました。
Seq2Printの重要な機能の一つは、CREs内の配列特徴を解析し、重要な転写因子結合部位を識別できる点です。例えば、あるCRE領域において、Seq2PrintはNFE2L2やNFYBなどの転写因子の結合部位を成功裏に識別し、これらの因子がヌクレオソームの位置決めにおいて果たす潜在的な役割を明らかにしました。
3. 単細胞データへの適用と細胞分化軌跡の分析
研究チームは、Seq2Printをヒト骨髄単細胞ATAC-seqデータに適用し、造血分化の過程におけるCREsの動的な変化を分析しました。その結果、CREsが分化の過程で順序立てて確立され、拡張されることが明らかになりました。特に赤血球分化の過程では、GATAやTALなどの転写因子が早期に結合し、KLF1やNFE2などの因子が後期に結合することが観察されました。この順序性のある結合パターンは、CREsの段階的な拡張と密接に関連しており、エンハンサーの確立過程の動態を明らかにしました。
4. 老化過程におけるCREsの変化
研究チームはまた、Seq2Printを用いてマウス造血幹細胞(HSCs)の老化過程におけるCREsの変化を分析しました。その結果、老化に伴いヌクレオソームフットプリントが広範に減少し、ETS複合モチーフが顕著に増加することが明らかになりました。これらの変化は、老化に伴う遺伝子発現の調節不全、特にHSCsの機能低下に関連する遺伝子の発現変化と関連している可能性があります。
結論と意義
この研究では、PRINTとSeq2Printの手法を開発することで、細胞分化と老化の過程におけるCREsの動的な変化を明らかにすることに成功しました。PRINT手法は、クロマチンアクセシビリティデータから多スケールフットプリントを検出することができ、Seq2Printは深層学習モデルを通じてCREsの配列特徴と調節ロジックを解析します。これらの手法は、転写因子結合の予測精度を向上させるだけでなく、遺伝子調節におけるCREsの役割を理解するための新たな視点を提供します。
研究のハイライト
- 多スケールフットプリント検出:PRINT手法は、異なるサイズのDNA-タンパク質相互作用を検出することができ、フットプリント検出の感度と特異性を大幅に向上させました。
- 深層学習フレームワーク:Seq2Printは、深層学習モデルを用いてCREsの配列特徴を解析し、転写因子とヌクレオソームの結合を予測し、新しい調節モチーフを識別することができます。
- 単細胞解像度:研究チームはSeq2Printを単細胞ATAC-seqデータに適用し、細胞分化と老化の過程におけるCREsの動的な変化を明らかにしました。
- 老化関連の発見:研究では、老化に伴いヌクレオソームフットプリントが広範に減少し、ETS複合モチーフが増加することが明らかになり、老化に伴う遺伝子発現の調節不全を理解するための新たな手がかりを提供しました。
その他の価値ある情報
研究チームは、PRINTとSeq2Printの事前訓練済みモデルとゲノム全体のTn5バイアスリファレンストラックを提供しており、他の研究者が利用できるようにしています。これらのリソースは、クロマチンアクセシビリティデータのさらなる分析と応用を促進するのに役立つでしょう。
この研究は、計算生物学と実験生物学の手法を組み合わせることで、遺伝子調節におけるCREsの複雑な動態を明らかにし、細胞の運命と疾患発生を理解するための新たなツールと視点を提供しました。