基于深度学习的酶筛选工具DeepES在孤儿酶基因识别中的应用
学术背景
随着测序技术的飞速发展,科学家们已经能够获得大量的蛋白质序列数据,其中包括许多酶序列。然而,尽管像京都基因与基因组百科全书(KEGG)和BRENDA这样的大型酶数据库已经建立,许多酶的序列信息仍然缺失。这些缺乏序列信息的酶被称为“孤儿酶”(orphan enzymes)。孤儿酶的存在严重阻碍了基于序列相似性的功能注释,导致在理解序列与酶促反应之间关系时存在巨大空白。
孤儿酶的问题不仅限于序列信息的缺失,还影响了我们对生物过程的理解。例如,人类肠道微生物群中的许多代谢过程,如短链脂肪酸(short-chain fatty acid, SCFA)的生产,与肠道炎症和癌症进展密切相关。然而,许多这些反应涉及孤儿酶,导致相关基因无法被识别。因此,开发一种不依赖于序列相似性的方法来预测酶活性,对于填补这一空白至关重要。
论文来源
这篇题为《DeepES: 基于深度学习的酶筛选工具用于识别孤儿酶基因》的论文由Keisuke Hirota、Felix Salim和Takuji Yamada等人撰写。研究团队来自东京科学研究所生命科学与技术学院(School of Life Science and Technology, Institute of Science Tokyo),并与Metagen Inc.、Metagen Therapeutics Inc.和Digzyme Inc.等公司合作。论文于2025年2月6日发表在《Bioinformatics》期刊上,并作为开放获取文章发布。
研究流程
1. 研究目标与框架设计
DeepES的核心目标是开发一种基于深度学习的工具,用于识别孤儿酶基因。研究团队采用了“反应类别”(Reaction Class, RClass)作为酶活性的分类标准。RClass基于底物和产物对的化学转化模式进行分类,相比传统的酶委员会编号(EC number),RClass能够处理不完整的反应,因此更适合用于孤儿酶的识别。
DeepES的工作流程分为三个主要步骤: 1. 输入基因序列:从基因组中提取连续的基因序列。 2. RClass分类器预测:使用预训练的深度学习模型(ESM-2)将蛋白质序列转换为向量表示,并通过多层感知机(MLP)预测每个基因是否对应于特定的RClass。 3. 生物合成基因簇(BGC)评估:通过计算连续基因的几何平均概率,评估这些基因是否可能编码目标酶。
2. 数据集与模型开发
研究团队从KEGG数据库中获取了原核生物的基因序列和RClass数据,构建了包含4,413,823个数据点的训练和测试数据集。为了应对RClass的类别不平衡问题,研究团队采用了加权损失函数,并对每个RClass训练了独立的二元分类器。
在模型开发过程中,研究团队使用了ESM-2模型,该模型能够将蛋白质序列转换为高维向量表示。随后,通过多层感知机对每个RClass进行预测。为了优化模型性能,研究团队进行了超参数调优,包括学习率、隐藏层大小和dropout率等。
3. 模型验证与性能测试
为了验证DeepES在低序列同源环境下的预测能力,研究团队构建了一个小规模的非冗余验证数据集。通过留一法交叉验证,研究团队发现DeepES能够在不依赖序列相似性的情况下,高精度地预测酶活性。
此外,研究团队还进行了生物合成基因簇(BGC)检测测试,将已知的酶作为“伪孤儿酶”进行处理,并测试DeepES是否能够识别这些酶的候选基因。结果显示,DeepES在识别BGC方面表现出色,尤其是在高阈值下,预测结果的可靠性显著提高。
4. 应用实例:人类肠道微生物中的孤儿酶
研究团队将DeepES应用于4744个来自人类肠道微生物的宏基因组组装基因组(MAGs),成功识别了236个孤儿酶的候选基因。这些孤儿酶涉及多种代谢途径,尤其是短链脂肪酸的生产。研究团队还发现,某些孤儿酶基因的预测结果与已知的代谢功能高度吻合,例如与芳香族化合物和异戊二烯类相关的代谢途径。
研究结果与结论
DeepES的开发为孤儿酶基因的识别提供了一种全新的方法。通过结合深度学习模型和生物合成基因簇的信息,DeepES能够在不依赖序列相似性的情况下,高效地筛选出候选基因。研究结果表明,DeepES在识别孤儿酶基因方面具有较高的准确性和可靠性,尤其是在处理低序列同源性的数据时表现尤为突出。
此外,DeepES的成功应用还揭示了人类肠道微生物中许多未知代谢途径的潜在基因,尤其是与短链脂肪酸生产相关的酶。这些发现不仅有助于理解肠道微生物的代谢功能,还为相关疾病的治疗提供了新的研究方向。
研究亮点
- 创新的深度学习框架:DeepES首次将深度学习模型与生物合成基因簇信息相结合,为孤儿酶基因的识别提供了全新的解决方案。
- 高效的RClass分类器:通过独立的RClass二元分类器,DeepES能够在不依赖序列相似性的情况下,高精度地预测酶活性。
- 广泛的应用前景:DeepES不仅适用于原核生物,还具备应用于植物和真菌的潜力,为未来研究提供了广阔的应用空间。
- 填补序列与功能之间的空白:DeepES的成功应用为理解序列数据与生物功能之间的关系提供了重要工具,尤其是在处理孤儿酶基因时表现出色。
研究价值与意义
DeepES的开发不仅具有重要的科学价值,还为生物技术和医学研究提供了新的工具。通过识别孤儿酶基因,科学家们可以更好地理解代谢途径的复杂性,尤其是在人类肠道微生物等领域。此外,DeepES的成功应用还为药物开发和疾病治疗提供了新的研究方向,尤其是在与代谢相关的疾病中,如肠道炎症和癌症。
DeepES为填补序列数据与生物功能之间的空白提供了重要的解决方案,并为未来的研究开辟了新的道路。