基于扭转流匹配的蛋白质侧链包装模型FlowPacker
蛋白质的三维结构由其氨基酸序列决定,而蛋白质的功能则高度依赖于其三维结构。蛋白质的侧链构象(side-chain conformations)在蛋白质折叠、蛋白质-蛋白质相互作用以及蛋白质设计(de novo protein design)中起着至关重要的作用。准确预测蛋白质侧链的构象是理解蛋白质折叠机制、设计新型蛋白质以及研究蛋白质相互作用的关键。然而,传统的基于物理的模型(physics-based modeling)依赖于经验评分函数(empirical scoring functions)、离散旋转库(discrete rotamer libraries)和马尔可夫链蒙特卡罗(MCMC)采样,这些方法往往由于搜索效率低下和评分函数的不准确性而难以达到理想的效果。
近年来,人工智能在蛋白质结构预测和设计领域取得了显著进展。特别是深度学习模型,如AlphaFold和DiffPack,已经在蛋白质侧链包装(side-chain packing)任务中展示了优越的性能。尽管如此,现有的方法在运行时间和准确性上仍有改进空间。为此,Jin Sub Lee和Philip M. Kim开发了FlowPacker,一种基于扭转流匹配(torsional flow matching)和等变图注意力网络(equivariant graph attention networks)的模型,旨在提高蛋白质侧链构象预测的准确性和效率。
论文来源
这篇论文由Jin Sub Lee和Philip M. Kim共同撰写,他们分别来自加拿大多伦多大学的分子遗传学系和计算机科学系。论文于2025年1月9日发表在《Bioinformatics》期刊上,标题为“FlowPacker: Protein Side-Chain Packing with Torsional Flow Matching”。论文的代码和数据已在GitLab上公开,供学术界和工业界使用。
研究流程
1. 模型设计
FlowPacker的核心是扭转流匹配(torsional flow matching)和等变图注意力网络(equivariant graph attention networks)。扭转流匹配是一种新的生成建模范式,能够在无模拟的情况下训练连续归一化流(continuous normalizing flows, CNFs),相比传统的扩散模型(diffusion models)具有更强的性能和更快的训练收敛速度。FlowPacker通过在高维环面(high-dimensional torus)上定义扭转流匹配框架,生成蛋白质侧链的构象。
2. 数据集准备
研究使用了两个数据集进行训练:BC40数据集和PDB-S40数据集。BC40数据集包含40%序列相似性的PDB结构,而PDB-S40数据集则是从2023年7月28日的PDB快照中提取的单体蛋白质结构,同样以40%序列相似性进行聚类。测试集则使用了CASP13、CASP14和CASP15的目标蛋白质结构。
3. 模型训练
FlowPacker的模型架构基于EquiformerV2,使用最大角动量(lmax)为3,通道维度为256,共包含1800万个可训练参数。模型在4块NVIDIA A100 GPU上训练了300个epoch,总训练时间约为6天。训练过程中,模型通过预测条件向量场(conditional vector field)来优化损失函数,最终生成蛋白质侧链的构象。
4. 推理策略
在推理阶段,FlowPacker使用指数调度(exponential schedule)和欧拉求解器(Euler solver)生成侧链构象。研究还开发了一个置信度模型(confidence model),用于选择预测误差最小的样本。
主要结果
1. 性能评估
FlowPacker在CASP13、CASP14和CASP15测试集上的表现优于其他基线模型,包括基于物理的Rosetta和深度学习的AttnPacker和DiffPack。FlowPacker在角度平均绝对误差(angle MAE)、角度准确率(angle accuracy)和原子均方根偏差(atom RMSD)等指标上均取得了最佳成绩。
2. 侧链修复
FlowPacker还展示了其在部分侧链修复(inpainting)任务中的能力。通过随机掩码(masking)5%到75%的残基,FlowPacker能够根据提供的结构上下文生成准确的侧链构象,表明其在蛋白质设计中的潜在应用价值。
3. 多聚体复合物
尽管FlowPacker主要针对单链蛋白质进行训练,研究还测试了其在抗体-抗原复合物(antibody-antigen complexes)上的表现。结果显示,FlowPacker在CDRH3和全可变链(full variable chain, FV)的侧链包装任务中均优于Rosetta,表明其能够扩展到多聚体复合物的侧链预测。
结论与意义
FlowPacker通过引入扭转流匹配和等变图注意力网络,显著提高了蛋白质侧链构象预测的准确性和效率。该模型不仅在单链蛋白质上表现出色,还能够处理部分侧链修复和多聚体复合物的预测任务,展示了其在蛋白质设计和结构生物学中的广泛应用潜力。
研究亮点
- 新颖的扭转流匹配框架:FlowPacker首次将扭转流匹配应用于蛋白质侧链包装任务,提供了更高效的生成建模方法。
- 等变图注意力网络:通过使用EquiformerV2,FlowPacker能够更好地捕捉蛋白质结构的对称性,提高了模型的表达能力。
- 多任务能力:FlowPacker不仅在单链蛋白质上表现优异,还能够处理部分侧链修复和多聚体复合物的预测任务,展示了其广泛的应用前景。
未来展望
研究团队提出了多个未来研究方向,包括利用无监督或监督学习改进突变效应的预测、使用偏好数据(preference data)对齐生成模型以提高生物物理合理性,以及探索新的侧链构象表示方法。此外,FlowPacker的性能还可以通过自回归采样(autoregressive sampling)和不确定性分析(uncertainty analysis)进一步提升。
FlowPacker为蛋白质侧链包装任务提供了一个高效、准确的解决方案,为未来的蛋白质设计和结构生物学研究奠定了坚实的基础。