基于自校正多标签学习的质粒宿主范围预测模型
质粒(plasmid)是细菌中独立于染色体DNA的小型环状双链DNA分子,它们通过水平基因转移(horizontal gene transfer)帮助宿主细菌获得抗生素抗性、金属抗性等有益特性。一些质粒能够在多种微生物中转移、复制或持续存在,这类质粒被称为广宿主范围质粒(broad-host-range plasmids, BHR plasmids)。准确预测BHR质粒的宿主范围对于理解质粒如何促进细菌进化、传播抗性基因以及开发重组载体具有重要意义。然而,目前缺乏提供BHR质粒详细宿主范围标签的数据库,这使得基于机器学习模型的宿主范围预测面临挑战。由于缺乏足够的标注样本,模型难以提取有效的特征表示,导致预测精度受限。
为了解决这一问题,香港城市大学电气工程系的Wei Zou、Yongxin Ji、Jiaojiao Guan和Yanni Sun团队提出了一种名为MostPlas的自校正多标签学习模型,用于质粒宿主范围的预测。该研究于2025年2月17日发表在《Bioinformatics》期刊上,题为“MostPlas: A Self-Correction Multi-Label Learning Model for Plasmid Host Range Prediction”。
研究流程与方法
1. 研究目标与挑战
MostPlas的目标是通过多标签学习模型预测质粒的宿主范围,特别是针对BHR质粒。研究面临的主要挑战包括: - 数据标注不完整:现有数据库(如NCBI RefSeq)仅提供质粒分离宿主的标签,缺乏完整的宿主范围信息。 - 标签不平衡:每个质粒的非宿主细菌数量远多于实际宿主,导致模型训练过程中对负标签的过度关注,而忽略了对正标签的识别。
2. MostPlas模型设计
MostPlas的核心创新在于设计了伪标签生成算法和自校正非对称损失函数,以解决上述挑战。
2.1 伪标签生成算法
伪标签生成算法通过挖掘质粒编码蛋白质的分布信息,为训练样本分配额外的可信宿主标签。具体步骤如下: 1. 数据准备:从NCBI RefSeq数据库下载所有质粒序列,筛选出完整基因组水平的序列,并去除非细菌宿主和样本数量少于10的属(genus)。 2. 蛋白质聚类:使用Prodigal进行基因预测和翻译,然后使用CD-HIT对蛋白质序列进行聚类(相似性阈值为0.9),生成蛋白质簇(protein cluster, PC)。 3. 显著性评分:设计了一种基于TF-IDF改进的评分方法TF-IDFpro,用于评估每个PC对不同宿主属的显著性。 4. 伪标签分配:根据质粒编码蛋白质的TF-IDFpro评分,为训练样本分配额外的宿主标签。
2.2 自校正非对称损失函数
传统的二元交叉熵损失函数在训练过程中对正负标签的贡献同等对待,而自校正非对称损失函数则通过以下方式调整模型训练: - 正标签主导:增加正标签的权重,减少负标签的影响。 - 自适应识别缺失标签:在模型训练过程中,自适应地识别可能的缺失正标签,从而优化模型的决策边界。
3. 实验与结果
研究团队在多个数据集上进行了实验,包括NCBI RefSeq数据库、PLSDB 2025数据库、实验确定宿主范围的质粒序列、Hi-C数据集和DoriC数据集。实验结果表明,MostPlas在保持高精度的同时,能够识别更多的宿主标签。
3.1 多宿主质粒测试集
在NCBI RefSeq和PLSDB 2025数据库上,MostPlas的召回率(recall)和F1分数显著优于其他工具。例如,在RefSeq数据集上,MostPlas的召回率提高了5.7%,F1分数提高了5.0%。
3.2 实验确定宿主范围的质粒
在MOB-suite数据集上,MostPlas的预测结果与其他工具的重叠率高达89.2%,表明其预测结果具有较高的可靠性。
3.3 生物学特性分析
通过对DoriC数据集的分析,研究发现具有多个宿主属标签的质粒往往具有多个复制子(replicon),这为进一步理解质粒的宿主适应机制提供了线索。
研究结论与意义
MostPlas是首个将多标签学习模型应用于质粒宿主范围预测的研究,其创新点在于通过伪标签生成算法和自校正非对称损失函数解决了数据标注不完整和标签不平衡的问题。实验结果表明,MostPlas在多个数据集上均表现出色,特别是在识别多宿主质粒方面具有显著优势。
科学价值与应用价值
- 科学价值:MostPlas为研究质粒的宿主适应机制、水平基因转移以及抗性基因传播提供了新的工具和方法。
- 应用价值:该模型可用于预测新发现质粒的宿主范围,帮助开发基于质粒的重组载体,并用于环境微生物组分析。
研究亮点
- 伪标签生成算法:通过挖掘质粒编码蛋白质的分布信息,生成高质量的伪标签,显著提升了模型的性能。
- 自校正非对称损失函数:通过调整正负标签的权重,解决了标签不平衡问题,并自适应地识别缺失标签。
- 多数据集验证:在多个公开数据集上进行了广泛验证,证明了模型的鲁棒性和通用性。
未来研究方向
尽管MostPlas在质粒宿主范围预测方面取得了显著进展,但仍有一些改进空间。例如,未来可以研究质粒复制起点(origin of replication)、转座子(transposon)以及其他移动基因如何影响质粒的宿主适应,从而进一步提高预测精度。此外,如何将MostPlas应用于不完整的质粒序列(如质粒contigs)也是一个值得探索的方向。