蛋白质结构预测:挑战、进展与研究范式的转变

蛋白质结构预测:挑战、进展及研究范式的变化

蛋白质结构预测是一个吸引了生物化学、医学、物理学、数学和计算机科学等多个领域研究者的重要跨学科研究课题。研究者们采取了多种研究范式去解决同一个结构预测问题:生物化学家和物理学家试图揭示蛋白质折叠的原理;数学家,尤其是统计学家,通常从假设给定目标序列的蛋白质结构概率分布开始,然后找到最可能的结构;而计算机科学家将蛋白质结构预测视为一个优化问题——寻找具有最低能量的结构构象或最小化预测结构与天然结构之间的差异。最近,深度学习在蛋白质结构预测中也取得了巨大成功。在这篇综述中,本文呈现了一项对蛋白质结构预测努力的调查。我们比较了不同领域研究者采用的研究范式,重点是深度学习时代研究范式的转变。

作者简介及论文出处

本文由Bin Huang, Lupeng Kong, Chao Wang, Fusong Ju, Qi Zhang, Jianwei Zhu, Tiansu Gong, Haicang Zhang, Chungong Yu, Wei-Mou Zheng 和 Dongbo Bu 撰写,发表于2023年3月30日的Genomics, Proteomics & Bioinformatics杂志。这些作者分别来自中国科学院计算技术研究所智能信息处理重点实验室,北京大学,中国科学院大学,以及华为诺亚方舟实验室等。

蛋白质结构预测的方法框架

工作流程

蛋白质结构预测的方法分为模板基础建模(Template-Based Modeling,TBM)和自由建模(Free Modeling,FM, 又称ab initio approaches)两大类。TBM方法又可以进一步细分为同源建模和threading方法。

同源建模方法:依据进化过程中蛋白质结构比序列更保守的原理,通过对比目标蛋白质与同源蛋白质的序列,从而构建目标蛋白质的结构。

Threading方法:不同于同源建模方法通过对比序列相似度寻找模板,Threading方法通过对比蛋白质序列与模板蛋白质的结构匹配度来寻找与目标蛋白质具有相同结构折叠的蛋白质。

自由建模方法:基于自然环境中蛋白质趋向于采用最低自由能结构的原则,通过最小化能量函数或直接模拟蛋白质折叠过程来完成结构预测。

研究范式和主要结果

研究者们通过以下几种方法来预测蛋白质的原生结构:

  1. 同源建模:如Modeller工具,通过对比目标蛋白质和同源蛋白质的序列,对输入序列进行结构建模。
  2. Threading:如PROSPECT、RAPTOR和DeepThreader工具,评估目标蛋白质序列与模板结构的匹配度。
  3. 自由建模:如当红的AlphaFold2、RosettaFold等方法,通过深度学习和模拟折叠过程解决预测问题。

深度学习时代的研究范式转变

近年来,深度学习技术在蛋白质结构预测中展示了非凡的潜力:

  1. 算法建模(Algorithmic Modeling):这种方法基于大量数据集使用深度神经网络来学习蛋白质序列的隐含规则,而不依赖于对数据生成过程和分布的假设。这避免了数据建模方法可能产生的误假设问题。
  2. 语言模型:如ProteinBERT和ESM等,通过深度神经网络学习蛋白质序列的潜在规则,提高了蛋白质结构和功能的预测性能。
  3. 端到端预测:如AlphaFold2,通过端到端的神经网络直接从序列预测蛋白质的三维结构,大大提高了预测精度。

应用及实践意义

深度学习技术的进步不仅在理论上推动了蛋白质结构预测的精确度,还为实际应用开辟了新的可能性。例如,使用AlphaFold2预测的结构可以用来改进分子替换相位在晶体学中的应用,或结合交叉链接数据解析病毒蛋白的新结构。

此外,研究者们还发现深度学习模型可以用于设计具有特定功能的蛋白质序列,大大提高了蛋白质工程的效率。这些进展展示了算法建模在深度学习和大数据时代的优势和特殊性,并且表明该方法将在未来继续发挥重要作用。

研究亮点和未来展望

  1. 单序列结构预测:自然环境中的蛋白质能够在没有同源蛋白的情况下折叠成其原生结构,这表明其序列中本质上包含了结构信息。未来的研究可以更多地关注单序列预测方法的改进。
  2. 高效蛋白质序列设计:深度学习技术在蛋白质序列设计方面也表现出色,未来的研究可以关注设计具有特定功能的蛋白质。
  3. 解析神经网络模型:尽管深度学习技术在结构预测中取得了很大进展,但理解这些模型的内在原理和关键特征依然是一个重要的研究方向。

在深度学习和大数据时代,算法建模已经成为蛋白质结构预测的主导研究范式,并将在未来继续发挥重要作用。通过整合统计模型的第一文化和第二文化,我们不仅能够实现高精度的结构预测,还能深入理解蛋白质折叠的机制。