使用图transformer模型进行小分子的质谱预测

这是一篇关于用于小分子质谱预测的图transformers模型(MassFormer)的论文。该研究针对质谱数据中的分子鉴定问题,提出了一种新的深度学习方法来预测小分子的质谱图谱。

背景介绍: 质谱(MS)是一种广泛应用于多个领域(如蛋白质组学、代谢组学、环境化学等)的分析技术,用于鉴定和定量样品中的化学物质。然而,对于大多数小分子,由于其碎裂过程的复杂性,准确模拟质谱图谱一直是该领域的一个关键挑战。现有的基于规则的方法(如CFM)存在性能和适用范围的限制。近年来,深度学习方法被应用于质谱预测,但现有模型主要基于分子指纹或局部图神经网络,无法有效建模分子全局结构和远程原子相互作用对碎裂的影响。

研究来源: 该研究由来自多伦多大学和矢量人工智能研究所的Adamo Young、Hannes Röst和Bo Wang等人完成,发表在2024年4月的自然机器智能期刊上。

研究内容和创新之处: 1. 研究工作流程: a) 将小分子表示为分子图,提取节点(原子信息)和边(键信息)的嵌入表示 b) 使用图transformers模型(MassFormer)对分子图进行编码,捕捉全局结构信息 c) 结合质谱元数据(如碰撞能量),利用多层感知器预测质谱峰的位置和强度 d) 在大型化合物数据集上预训练图转换器,再在质谱数据上精细调整

  1. 主要结果: a) MassFormer在多个质谱数据集上表现优于其他现有方法(如CFM、指纹神经网络、图神经网络) b) 模型能够很好地捕捉碰撞能量对碎裂模式的影响 c) 基于梯度的归因分析显示,模型学会了识别峰与元素组成之间的关联关系

  2. 研究意义: a) 科学价值:提出了一种新颖的利用全局结构信息预测质谱的方法,有助于深化对质谱过程的理解 b) 应用价值:改进了基于质谱的小分子鉴定的性能,可用于代谢组学、环境化学等领域

  3. 研究亮点: a) 首次将图转换器应用于质谱预测,利用自注意力机制捕捉远程原子相互作用 b) 预训练策略提高了模型泛化能力 c) 梯度归因分析展示了模型对峰与元素成分关联的学习能力 d) 在质谱鉴定任务中表现优异,有望促进小分子鉴定的应用