207の綿花系統における単一ヌクレオチド解像度でのDNAメチル化多様性が複雑な形質へのエピジェノムの寄与を明らかにする

コットンにおける全体的なDNAメチル化多型の研究が複雑な形質に対するエピゲノムの貢献を明らかに

背景と研究の動機

過去数十年にわたり、全ゲノム関連解析(GWAS)を通じて、ゲノムおよび遺伝的多様性に関する研究が進められ、作物形質の変異理解に理論的基盤を提供してきました。しかしながら、DNAメチル化をはじめとするエピジェネティック修飾が作物形質の制御にどのように寄与するかについては、未だに十分に解明されていません。DNAメチル化は、シトシン(Cytosine)にメチル基を付加することで発生し、遺伝子発現の調節、ゲノムの安定性の維持、さらに多くの作物における重要な農学形質において重要な役割を果たします。これまでの研究では、ゲノムメチル化レベルの多型が生態学的適応形質に関連していることが示されていますが、自然集団の作物において、エピジェネティックな変異が形質に与える寄与については、さらなる研究が必要です。

このような背景を受けて、浙江大学およびアリババグループなどの研究機関の科学者たちは、207種類のコットン系統で高品質なメチルオーム、トランスクリプトーム、ゲノムデータを生成し、従来の集団遺伝学の枠組みをエピジェネティクスに拡張しました。本研究では、DNAメチル化多型の遺伝子領域およびトランスポゾンなど異なるゲノム領域における分布を体系的に解析し、DNAメチル化がコットンの繊維形質を制御する仕組みを明らかにしました。この研究は、作物改良の次のステップに向けたエピジェノム資源を提供するものです。本論文は2024年に《Cell Research》に掲載されました。

研究デザインと方法

サンプル収集および多オミクスデータの取得

研究チームは、中国杭州で207のコアコットン種質リソース(CUCP1)を育成し、開花後20日目に繊維サンプルを採取しました。これらのサンプルを用いて全ゲノムバイサルファイトシーケンシング(WGBS)およびトランスクリプトームシーケンシング(RNA-seq)が実施されました。研究では、540億のWGBSデータと4.42億のRNA-seqデータが生成され、コットン系統ごとの特異的な遺伝子発現およびDNAメチル化状態の解析基盤が整備されました。

研究チームは、厳密なデータ処理と品質管理を通じて、CG、CHG、CHHの3種類のメチル化タイプにおけるシトシン数を測定し、メチル化変異マップを構築しました。WGBSとRNA-seqによる検出を組み合わせ、幅広いメチル化部位変異データが収集され、集団レベルの遺伝情報と統合されました。

ゲノムメチル化分布特性の解析

研究結果によると、コットンゲノム全体のCGメチル化率は約72%、CHGは約55%、CHHは11%であり、このメチル化分布は遺伝子豊富な領域で顕著な多様性を示しました。また、メチル化連鎖不均衡(Methylation Disequilibrium, MD)の概念を導入して、DNAメチル化が遺伝子領域でどのように分布しているかを分析しました。その結果、CGおよびCHG配列のメチル化は細胞分裂過程で安定性が維持される傾向がある一方で、CHHメチル化は相対的に不安定であることが分かりました。

メチル化と遺伝子発現の関連性解析

ゲノム全体で、研究チームはcis-methylation quantitative trait loci(cis-meQTLs)解析を通じて、遺伝子発現に影響を与える多くのメチル化部位(SMPs)を特定しました。また、これらの部位がゲノム全体でどのように分布しているかをさらに分析しました。その結果、36.39%以上のcis-eQTM遺伝子が遺伝的変異と無関係であることが判明し、多くのDNAメチル化部位がSNPs(単一ヌクレオチド多型)に依存しない形で遺伝子発現を制御していることが明らかになりました。

複数のオミクスデータを用いて構築した関連ネットワークでは、DNAメチル化が繊維発達に重要な役割を果たしていることが分かりました。例えば、CBL相互作用プロテインキナーゼ10(CIPK10)をコードする遺伝子は、メチル化状態が繊維の長さと強く関連しており、遺伝子編集技術を通じてその機能が検証されました。この発見は、DNAメチル化データを利用した作物改良における潜在的な遺伝子資源を提供するものです。

主な研究成果

SMP数がSNP数を大幅に上回る

本研究は、コットンゲノム内のSMPsの数がSNPsの100倍であることを示し、集団レベルでDNAメチル化の多型性が遺伝的多型性を大きく上回ることを明らかにしました。SMPsは、特にイントロンやプロモーター領域などの遺伝子領域で高度に集中していることが分かりました。この特性は、シロイヌナズナの研究結果とも一致しています。

メチル化多型が繊維形質に与える影響

表現型エピゲノム関連解析(EWAS)を通じて、研究チームは収量や繊維品質に関連する1715の表現型関連エピジェネティック部位を特定しました。特に注目すべきは、これらの部位のうち2.10%のみがGWAS部位と重複している点であり、エピジェネティック部位が形質変異を独立して制御する可能性があることを示唆しています。さらに、CGメチル化およびCHGメチル化が遺伝子発現と強い負の相関を示す一方で、CHHメチル化は遺伝子制御において相対的に弱い影響しか与えないことが分かりました。

繊維発達関連遺伝子ネットワークの構築

研究チームは、GWASおよびEWAS解析を統合し、コットン繊維発達に関与する遺伝子調節ネットワークを構築しました。このネットワークは634の接続と397の遺伝子を含み、繊維伸長に関与する複数の既知の遺伝子が含まれています。また、エピジェネティック調節ネットワークの構築を通じて、繊維発達におけるエピジェネティクスと遺伝子間の複雑な相互作用が明らかになりました。

CRISPRによるCIPK10遺伝子機能の検証

CRISPR/Cas9遺伝子編集技術を用いてCIPK10遺伝子をノックアウトした結果、CIPK10遺伝子の欠損が繊維の長さを大幅に短縮することが判明しました。この結果は、DNAメチル化と農学形質との関連を実証するとともに、エピジェノムリソースを利用した作物改良の可能性を示しています。

深層学習モデルによる機能性メチル化部位の予測

研究チームは、DNAメチル化部位が遺伝子発現制御に与える予測精度を向上させるため、DeepFDML(Deep Functional DNA Methylation Loci)と呼ばれる深層学習モデルを開発しました。このモデルは、コットンゲノム配列データと分子特徴を基に、畳み込みニューラルネットワークとトランスフォーマー層構造を使用して、機能性CG部位を成功裏に予測しました。モデルのROCスコアは0.82、PRCスコアは0.78に達し、深層学習がゲノム機能部位予測において持つ潜在力を示しました。

研究の意義と展望

この研究の多オミクス関連解析は、コットン繊維発達の分子調節機構を解明するとともに、エピジェノムが複雑形質を調節する研究枠組みを拡張しました。本研究は、コットンゲノムレベルでSMPとSNPの違いを初めて明らかにし、DNAメチル化が作物改良における独立した分子マーカーとして利用可能であることを示しました。また、DeepFDMLモデルの開発と検証により、将来的にエピジェネティック機能部位を直接予測する手法が提供されることで、関連データが不足する種の研究や遺伝子改良のさらなる進展が期待されます。

結論

この研究は、コットンの繊維品質および収量の改良に重要なエピジェネティック資源を提供し、DNAメチル化が作物の複雑形質において果たす独立した調節層としての役割を明らかにしました。深層学習モデルの導入により、将来的には配列データから直接機能性メチル化部位を予測し、農作物の遺伝的改良をさらに推進することが可能になると考えられます。