在复杂微生物组中使用基因排列分析进行菌株追踪揭示物种特定的进化模式

2024-07-10 Wed
在复杂微生物组中使用基因排列分析进行菌株追踪揭示物种特定的进化模式背景介绍
微生物种群通过单核苷酸突变和结构变化（如重组、插入和缺失）分化为不同的菌株。大多数菌株比较方法主要量化单核苷酸多态性（SNPs）的差异，而忽视了结构变化。然而，重组是许多物种（包括人类病原体）表型多样化的重要驱动因素。本文介绍了一种名为SynTracker的工具，该工具使用基因排列（基因组中同源区域的序列块顺序）来比较微生物菌株。基因排列是一种尚未被现有菌株比较工具充分利用的丰富的基因组信息来源。SynTracker对SNP敏感度低，无需数据库，且对测序错误具有鲁棒性。它在追踪元基因组数据中的菌株时优于现有工具，特别适用于噬菌体、质粒及其他数据有限的情境。应用于单物种数据集和人类肠道元基因组时，SynTracker与基于SNP的工具结合，能检测到通过点突变或结构变化丰富的菌株，提供关于微生物原位进化的洞见。
论文来源
本文由Hagay Enav、Inbal Paz和Ruth E. Ley主作，作者隶属Max Planck Institute for Biology（图宾根，德国）和University of Tübingen（图宾根，德国）。该研究发表在著名期刊《Nature Biotechnology》上，文章编号为https://doi.org/10.1038/s41587-024-02276-2。
研究详细过程
流程概述同源区域识别：
选取参考基因组并分割成1-kbp的中央区域。
转换样本特异的元基因组组装库为BLAST数据库，使用高严格度的BLAST搜索将这些中央区域作为查询，设定最低身份比例为97%，最小查询覆盖率为70%。
对每次BLAST命中，检索目标序列及其上下游2-kbp的区域，收集这些区域到特定区域的箱子。
区域特异性排列分数计算：
每个特定区域的同源集合分配到一个独特的区域箱子。
在每个箱子中，执行两两比对以识别排列块，并计算区域特异性的两两排列分数，该分数基于识别的排列块数量和两个序列之间的重叠。
总体分数（APSS）计算：
对每对元基因组样本（或基因组），随机抽取n个区域进行比对并计算APSS，通过平均这些区域的两两排列分数来获得。
主要实验及结果性能测试及灵敏度：
使用BacMeta软件进行体内模拟，通过引入仅有SNPs和仅有插入/缺失的两类突变，比较两类模拟的排列分数。
在SNPs模拟中，区域的最低平均BLAST身份为99.5%，而在插入/缺失模拟中，最低会达到99.79%。
结果显示通过引入插入/缺失的群体，基因区域的排列分数显著低于SNPs群体。
菌株分类：
使用14个已分类的Escherichia coli基因组，随机选择140个基因组进行分析并构建系统发育树。
结果显示SynTracker能够使用低至2%基因组样本重现出版的系统发育分组。
菌株追踪的门槛设定：
在基于人类肠道微生物组的纵向研究中，计算出使菌株对的分类准确度最高的APSS值，并以此为标准进一步分析不同物种的位置模式。
观察到母婴菌株共享比例在婴儿早期较高，与婴儿年龄增长，菌株共享总数量增加，但比例相对减少。
高敏感度于基因结构变异：
结合SNPs追踪工具，对Neisseria gonorrhoeae、耐药Escherichia coli、Helicobacter pylori以及Streptomyces rimosus样品进行分析。
结果表明，SynTracker对结构变异具有高敏感度，而SNPs工具对点突变更为敏感。
主要结论及研究意义科学和应用价值：SynTracker在微生物原位进化分析中显示出特有的优势，通过结合基因排列和SNPs分析，揭示了物种在菌株分化中的不同模式。这不仅在基础科学层面上有重要意义，还为病原体追踪、抗药性研究等应用研究提供了新的工具和方法。
研究亮点：
新颖性：首次引入基因排列方法，拓展了现有基因组分析工具的比较框架。
高效率及准确性：能够使用极少量的基因组片段进行高效的菌株分类和追踪。
广泛适用性：适用于数据有限的情境如质粒、噬菌体和稀有物种的菌株追踪。
其他有价值的信息开源及方法共享：SynTracker作为开源软件在GitHub平台免费提供，方便其他研究人员使用和改进。
未来展望：结合SNPs和基因排列分析工具，可以深入研究特定物种进化的分子机制，进一步揭示环境和进化压力对微生物基因组多样性的影响。
这项研究不仅拓宽了对微生物种群进化机制的理解，也为实际应用提供了有力支持。研究人员可以利用这些工具，更准确地追踪和研究微生物组的复杂性和动态变化。