基于序列的功能性宏基因组学揭示环境微生物组中COPA基因的天然多样性

基于序列的功能宏基因组学揭示了环境微生物组中功能性COPA基因的新自然多样性

环境微生物组中的功能基因/蛋白质的自然多样性是进化和生物工程研究的重要组成部分。为了深入了解全球微生物中铜(Cu)抗性基因COPA的多样性,本研究采用了一种基于序列的功能宏基因组学方法。这项研究不仅将宏基因组组装技术、局部BLAST、进化迹分析(ETA)、化学合成和传统功能基因组学结合起来,还成功地高效挖掘了环境DNA(eDNA)中的COPA基因多样性。

研究背景

微生物进化过程中产生了多样的功能基因/蛋白质,这些基因/蛋白质在领域如微生物系统发育学和蛋白质工程中有着广泛的应用。例如,DNA指导的RNA聚合酶亚基Beta(RPB)和氮化酶铁蛋白(NIFH)等基因广泛用于识别和描述不可培养的‘黑暗物质’。现有已知功能蛋白仅占自然选择过程中产生的蛋白质的很小一部分。高通量恢复自然功能蛋白变体的多样性有助于揭示现有天然蛋白质与随机序列之间的差异,并为基于自然选择的大规模序列变体库的蛋白质工程提供基础。

然而,对于某些功能基因/蛋白质,如金属抗性基因,由于在环境中的低丰度和在常用数据库中缺乏已表征的序列,其自然多样性仍很难探索。宏基因组数据包含环境DNA的全部遗传信息,提供了探索这些基因/蛋白质自然多样性的理想途径。传统上,功能基因的检测依赖于纯培养物的基因组探查。而基于序列的宏基因组学则跨越了功能筛选方法和冗余分离的局限。

研究来源

这篇论文由Wenjun Li, Likun Wang, Xiaofang Li, Xin Zheng, Michael F. Cohen和Yong-Xin Liu等人共同完成,分别来自中国科学院遗传与发育生物学研究所、河北省土壤生态重点实验室、美国索诺马州立大学和中国科学院植物基因组学国家重点实验室。该研究于2023年发布在《Genomics Proteomics & Bioinformatics》期刊上。

研究流程介绍

1. 数据收集与处理

收集了来自公共数据库的87个宏基因组数据集,这些数据集代表了全球多种环境微生物组。使用MG-RAST服务器,对这些宏基因组进行了组装和质量控制,确保数据的完整性和准确性。然后将这些宏基因组数据输入本地BLAST进行COPA基因序列的检索。

2. COPA基因的检索与分析

通过对所有组装的宏基因组进行BLAST搜索,共获得93,899个命中记录,手动筛选高可信度的1214条命中记录,最终检索出517个独特的COPA候选序列。这些序列进一步经过ETA分析,筛选出175个高质量的COPA新序列。然后,使用系统发育树分析这些序列与已知COPA蛋白质的进化关系。

3. 功能验证实验

对10个新型COPA基因进行了化学合成,并在Cu敏感的Escherichia coli(ΔcopA)中进行异源表达。生长测试和Cu吸收测定表明,其中5个新型克隆对宿主的Cu抗性和吸收有正面影响。其中一个重组体COPA-like 15(copal15)成功恢复了宿主的Cu抗性并显著增强了Cu吸收能力。还有两个新型COPA基因与GFP基因融合,并在E. coli中进行显微观察,结果显示它们正确地表达并定位于细胞膜上。

研究结果

ETA和COPA蛋白质的结构特征

ETA分析显示,所有已知的34个COPA蛋白质主要来源于14种细菌种类,几乎所有已知的COPA蛋白质都功能于Cu外排,唯有E. hirae的COPA被注释为铜摄入P型ATPase。在蛋白质长度方面,COPA通常含有约800个氨基酸,最长的来自Yersinia pestis,含有961个氨基酸。14组COPA中,重金属转运ATPase(HMA)结构域数量从1到3不等,但Legionella pneumophila属的COPA不存在HMA结构域。所有COPA蛋白质都有E1-E2 ATPase结构域,这是一种与ATP水解和通过构象变化实现Cu结合和外排的结构。

全球微生物组中新型和多样的COPA基因

从88个宏基因组数据集中,将550万多个contigs和1.34亿条氨基酸序列用于局部BLAST,并最终在87个数据库中进行了分析。总共获得了93,899个命中数据,通过手动筛选得到了517个序列,这些序列长范围从500到900个氨基酸,其中315个序列具有跨膜螺旋,222个序列含有重金属转运ATPase结构域,并最终筛选得到了175个COPA类似基因。通过Kraken 2分类,这些基因主要分布于五个门:变形菌门,放线菌门,广古菌门,拟杆菌门,和厚壁菌门,其中55个序列是完全未知的物种。

功能验证

从175个COPA候选基因中随机选择10个进行化学合成,并在E. coli ΔcopA中表达。生长测试和Cu吸收测试显示,其中5个新型COPA基因显著增强了宿主的Cu抗性和吸收能力。特别是COPA-like 6显著抑制了宿主生长,但其Cu吸收能力同样显著提升。

研究结论

本研究显著扩展了已知的COPA蛋白质的多样性,并开发出一种基于序列的高通量功能宏基因组学方法,克服了传统方法中长度、筛选和抗性基因丰度的偏差问题。研究展示了COPA基因在新物种中的多样性及其不同的抗性机制,这为后续的蛋白质工程和金属抗性基因的进化研究提供了宝贵的基础资源。

研究亮点

  1. 高效数据处理方法:开发并应用了一种高效的基于序列的功能宏基因组学方法,可以在全球范围内挖掘和分析环境微生物组中的功能基因。
  2. 多样性揭示:揭示了环境微生物组中COPA基因的广泛多样性,发现了来自多种未知物种的新COPA序列。
  3. 功能验证:通过异源表达验证了新发现的COPA基因的功能,展示了新COPA基因在增强铜抗性和吸收方面的潜力。

价值和意义

此研究不仅对理解微生物金属抗性的自然多样性具有重要的科学价值,还为未来的环境修复和生物工程应用提供了新的基因资源和方法。同时,该研究的方法为宏基因组数据的功能挖掘提供了可行性高且效率高的技术路径,具有广泛的应用前景。