汉族人全基因组测序：从端粒到端粒

2024-08-13 Tue
T2T-YAO：汉族全长双倍体参考基因组的组装实现科学背景人类基因组计划（Human Genome Project, HGP）自发起三十年以来，生物医学研究领域设定了一个长期目标，即构建完整而精确的人类参考基因组。然而，受限于测序技术的局限性，长期以来难以达到这个目标所需的全面性和精确度。近年来，随着测序技术的突破，T2T（Telomere-to-Telomere，端粒到端粒）项目公布了第一个全长单倍体人类基因组，即T2T-CHM13v1.1。这一成果填补了8%先前未知的高重复区域，使基因组质量达到了Q73.94，即每24.8兆碱基一次错误。
然而，即使这一成就令人振奋，T2T-CHM13基因组并不是真实人类个体的代表，而是源于一个缺失Y染色体的完全葡萄胎（CHM）细胞系的单倍体基因组。其细胞系来源于北欧，并通过东欧犹太血统的HG002补充Y染色体，仍然不能代表全球各个个体。重要的是，尽管人类泛基因组参考（HPRC）整合了来自全球47个个体的草稿基因组，但仍不足以全面代表所有人口。
在此背景下，汉族作为世界上最大的人口群体，其基因组参照系在当前的人类基因组（如GRCh38和HPRC）中代表性不足，特别是在源地区域缺乏样本。因此，构建一个高质量的汉族双倍体T2T参考基因组非常重要，以推动针对不同种族群体的深入生物学研究和医疗应用。
研究来源这篇原始研究文章的作者来自多个研究机构，包括北京大学人民医院、北京基因组研究所、中国科学院等。此论文于2023年8月16日在线发表在Genomics Proteomics & Bioinformatics期刊上。
研究流程研究样本的选择为了实现汉族全长双倍体参考基因组的构建，研究团队采集了一名来自山西省古村落的健康汉族男性，该村落自明代以来已有数代汉族人居住，反映了汉族较为纯粹的遗传特征。
测序和数据采集论文详细描述了从亲代三联体（子代及父母）的外周血单个核细胞（PBMC）样本中进行基因组的采集。首先进行了染色体核型分析，排除了有染色体疾病的情况。随后，使用了包括PacBio高保真（HiFi）测序、牛津纳米孔（ONT）测序、Illumina ARIMA基因组的染色体构象捕获（Hi-C）测序以及Bionano光学映射等多种技术来确保测序的深度和覆盖。
基因组装与校正通过儿子的ONT读取数据中的父系和母系特异性标记来进行三联体组装，并且基于HiFi读取构建格式塔图，进行逐步整合。之后，利用超长ONT读取和低频率k-mer来填补组装中的剩余间隙，最终实现了T2T组装。在多种数据校对后，使用严格的策略进行单核苷酸变异（SNV）和结构变异（SV）错误修正，确保了最终基因组参考的精确性。
数据验证与评估使用Merqury等工具评估了T2T-YAO基因组的完整性和精确度，其质量值（Q value，QV）达到Q74.69，比T2T-CHM13的Q73.94更高。这标志着T2T-YAO是目前世界上最高质量的双倍体人类基因组参考。
研究结果汉族遗传标记分布基于从1000基因组计划的SNP数据，T2T-YAO基因组展示了明显的东亚遗传标记，并混合了少量南亚、欧洲和美洲的标记。这表明了汉族基因组在不同人群中的特征差异。
独特基因和序列通过与现有的人类基因组进行比对，发现T2T-YAO基因组中存在大约10%的独特序列，这些独特序列主要分布在中心粒等异染色质区域，增加了汉族基因组特有的遗传多样性。
结构变异研究还发现了多个大规模的结构变异，例如在8号染色体短臂上发现的4MB倒位，这种变异在以往的遗传研究中也有报道，说明了不同人群间的结构多样性。
Y染色体架构T2T-YAO中的Y染色体（YAO-Y）的总长为51MB，相比于CHM13的Y染色体少10 MB，主要位于Yq12区域。这些区域的差异反映了不同人群Y染色体的长度多态性。
研究意义该研究首次成功构建了汉族的全长双倍体参考基因组，这意味着在未来的生物医学研究中，特别是针对汉族人群的精准医学研究中，能够更加明确地进行基因变异的定位和分析。此外，T2T-YAO基因组的构建为今后的基因组学研究和新药研发提供了宝贵的应用场景和实践依据。
结论T2T-YAO代表了当前基因组组装中的重要进展，是第一个真正完整准确的双倍体人类基因组，将在未来的医学生物研究中发挥巨大的作用。此次研究不仅展示了技术上的突破，更为重要的是，为汉族这个庞大人口群体提供了一个详细而真实的基因组参考，具有重要的学术价值和应用前景。