中国漢民族の端から端までの完全な二倍体ゲノムアセンブリ
T2T-YAO:漢族の全長二倍体参照ゲノムのアセンブリの実現
科学的背景
ヒトゲノムプロジェクト(Human Genome Project, HGP)が開始されてから30年以来、生物医学研究分野は、完全かつ正確なヒト参照ゲノムを構築するという長期的な目標を設定してきました。しかし、シーケンス技術の限界により、この目標に必要な包括性と精度を長い間達成することが困難でした。近年、シーケンス技術の breakthrough により、T2T(Telomere-to-Telomere、テロメアからテロメアまで)プロジェクトは、最初の全長単倍体ヒトゲノムであるT2T-CHM13v1.1を公開しました。この成果は、以前は未知だった8%の高度反復領域を埋め、ゲノムの品質をQ73.94、つまり24.8メガ塩基に1回のエラーにまで高めました。
しかし、この成果が印象的であるにもかかわらず、T2T-CHM13ゲノムは実際のヒト個体を代表するものではなく、Y染色体を欠く完全胞状奇胎(CHM)細胞系列から得られた単倍体ゲノムです。この細胞系列は北欧起源であり、東欧ユダヤ系のHG002からY染色体を補完していますが、依然として世界中の個体を代表するものではありません。重要なのは、ヒトパンゲノム参照(HPRC)が世界中の47個体からのドラフトゲノムを統合しているにもかかわらず、全ての人口を包括的に代表するには不十分だということです。
この背景において、世界最大の人口集団である漢族のゲノム参照系は、現在のヒトゲノム(GRCh38やHPRCなど)では十分に代表されておらず、特に起源地域のサンプルが不足しています。したがって、高品質の漢族二倍体T2T参照ゲノムを構築することは、異なる人種集団に対する深い生物学的研究や医療応用を推進するために非常に重要です。
研究ソース
この原著研究論文の著者は、北京大学人民病院、北京ゲノム研究所、中国科学院などの複数の研究機関に所属しています。この論文は2023年8月16日にGenomics Proteomics & Bioinformatics誌にオンラインで発表されました。
研究プロセス
研究サンプルの選択
漢族の全長二倍体参照ゲノムの構築を実現するために、研究チームは山西省の古い村落から健康な漢族男性を1名選びました。この村落は明代以来数世代にわたって漢族が居住しており、漢族の比較的純粋な遺伝的特徴を反映しています。
シーケンスとデータ収集
論文では、親子三人組(子供と両親)の末梢血単核細胞(PBMC)サンプルからゲノムを収集する過程が詳細に記述されています。まず、染色体核型分析を行い、染色体疾患がないことを確認しました。その後、PacBio高忠実度(HiFi)シーケンス、Oxford Nanopore Technologies(ONT)シーケンス、Illumina ARIMAゲノムの染色体コンフォメーションキャプチャー(Hi-C)シーケンス、およびBionano光学マッピングなど、複数の技術を使用してシーケンスの深度とカバレッジを確保しました。
ゲノムアセンブリと校正
息子のONTリードデータ中の父系と母系に特異的なマーカーを使用して三人組アセンブリを行い、HiFiリードに基づいてグラフを構築し、段階的に統合しました。その後、超長ONTリードと低頻度k-merを利用してアセンブリの残りのギャップを埋め、最終的にT2Tアセンブリを実現しました。複数のデータ校正後、厳密な戦略を用いて一塩基多型(SNV)と構造バリアント(SV)のエラー修正を行い、最終的なゲノム参照の正確性を確保しました。
データ検証と評価
Merquryなどのツールを使用してT2T-YAOゲノムの完全性と正確性を評価し、その品質値(Q value、QV)はQ74.69に達し、T2T-CHM13のQ73.94を上回りました。これは、T2T-YAOが現在世界で最高品質の二倍体ヒトゲノム参照であることを示しています。
研究結果
漢族の遺伝マーカー分布
1000ゲノムプロジェクトのSNPデータに基づき、T2T-YAOゲノムは明確な東アジアの遺伝マーカーを示し、少量の南アジア、ヨーロッパ、アメリカのマーカーが混在していることが分かりました。これは、異なる人口集団間での漢族ゲノムの特徴の違いを示しています。
ユニークな遺伝子と配列
既存のヒトゲノムとの比較により、T2T-YAOゲノムには約10%のユニークな配列が存在することが発見されました。これらのユニークな配列は主にセントロメアなどのヘテロクロマチン領域に分布しており、漢族ゲノム特有の遺伝的多様性を増加させています。
構造バリアント
研究では、複数の大規模な構造バリアントも発見されました。例えば、8番染色体の短腕に4MBの逆位が見つかりました。この種の変異は以前の遺伝学研究でも報告されており、異なる人口集団間の構造的多様性を示しています。
Y染色体アーキテクチャ
T2T-YAOのY染色体(YAO-Y)の総長は51MBで、CHM13のY染色体より10 MB少なく、主にYq12領域に位置しています。これらの領域の違いは、異なる人口集団のY染色体の長さの多型性を反映しています。
研究の意義
この研究は、初めて漢族の全長二倍体参照ゲノムの構築に成功しました。これは、将来の生物医学研究、特に漢族人口を対象とした精密医療研究において、遺伝子変異のより明確な位置特定と分析が可能になることを意味します。さらに、T2T-YAOゲノムの構築は、今後のゲノミクス研究と新薬開発に貴重な応用シナリオと実践的根拠を提供します。
結論
T2T-YAOは現在のゲノムアセンブリにおける重要な進歩を表しており、最初の真に完全で正確な二倍体ヒトゲノムです。将来の医学生物学研究で大きな役割を果たすでしょう。この研究は技術的breakthrough を示しただけでなく、より重要なのは、この巨大な人口集団である漢族に詳細かつ真実のゲノム参照を提供したことで、重要な学術的価値と応用の見通しを持っています。