EvoAI实现蛋白质序列空间的极端压缩与重建
蛋白序列空间的极端压缩与重建:EvoAI的突破性研究
背景介绍
蛋白质的设计和优化已经成为生物技术、医学和合成生物学领域中的核心挑战之一。蛋白质的功能由其序列和结构决定,但这一功能性的序列空间(sequence space)非常复杂且高维,包含极大量的可能性。探索这一领域的关键性问题在于如何有效地解析和压缩这片几乎无穷大的序列空间,进而识别与功能密切相关的特征。以往的方法包括直接进化(directed evolution)、深度突变扫描(deep mutational scanning, DMS)、位点饱和突变(site-saturation mutagenesis)等实验策略,虽为揭示基因型与表型的关系提供了重要的见解,但在序列空间覆盖范围、准确性和高维分析能力方面受到显著限制。而计算方法,如基于序列或结构的建模,通常依赖于可用的训练数据,难以涵盖实验无法完全探索的高维序列空间。
因此,本研究试图开发一种新方法,解决现有实验和计算方法的诸多瓶颈问题:如何快速扫描和压缩序列空间,尤其是高维空间;如何利用压缩数据重建并预测更高功能表现的蛋白质。为此,研究团队提出了一种新的实验-计算结合的混合方法“EvoAI”。
论文来源
这篇突破性的研究由来自清华大学、Broad Institute of MIT and Harvard、Williams College和Massachusetts Institute of Technology (MIT)等多所顶尖研究机构的科学家共同完成。第一作者为Ziyuan Ma等人,通讯作者为Shuyi Zhang,论文发表于2024年11月11日的《Nature Methods》。
研究流程
本研究围绕EvoAI的开发与验证展开,综合了实验技术“EvoScan”和基于深度学习的计算方法,形成了一种全新的蛋白质序列空间探索与重建流程。
1. EvoScan:实验进化扫描系统
EvoScan基于一种改良的噬菌体辅助非连续进化技术(Phage-Assisted Noncontinuous Evolution,PANCE),结合CRISPR(Clustered Regularly Interspaced Short Palindromic Repeats)引导的DNA聚合酶诱变系统EvolvR,开发了一种快速高效的“演化扫描”(Evolutionary Scanning)方法。
系统构建与设计
EvoScan的核心思想是在噬菌体基因组中引入目标基因,通过特定向导RNA(guide RNA, gRNA)指导的分段突变,将复杂高维的序列空间分割为多个较低维的子空间。实验使用M13噬菌体作为载体,结合目标调控回路,实现特定功能表现的突变筛选。例如,EGFP(Enhanced Green Fluorescent Protein,增强型绿色荧光蛋白)-Nanobody交互实验中,将EGFP结合域与CRISPR抑制蛋白融合,并通过调控gIII基因的表达与噬菌体增殖挂钩。实验利用突变设计和循环通道传递的方法,逐步探索遗传空间。验证与实施
以EGFP-Nanobody互作为模型,实验快速识别出关键突变位点(“锚点”),如引入突变E103K后,仅用两次传代就观察到突变恢复,从而验证了EvoScan快速定位功能相关锚点的能力。
2. 高维探索与详细案例分析
EvoScan的广泛应用能力通过以下三个领域的关键蛋白质系统进行了验证:
蛋白-配体互作:以SARS-CoV-2主要蛋白酶(Mpro)为模型,结合已有的药物抑制剂GC376和Nirmatrelvir,系统性扫描揭示了一批可能引起药物抗性的关键突变位点,如E166V、S144A等,并获得大量新突变。
蛋白-核酸互作:针对Tetr家族转录调节因子AmeR,高效扫描生成了82种高功能锚点突变,标记出52个显著突变位点,并揭示了突变对协同作用的复杂影响,包括正负表观作用(epistasis)。
3. 深度学习辅助:EvoAI的设计与预测
EvoAI通过先前的实验结果训练得到了高准确度的蛋白质设计模型,并展现了在序列空间重建方面的卓越能力:
模型架构
结合预训练的GeoFitness模型和蛋白语言模型ESM-2(Evolutionary Scale Modeling),通过多层感知器(MLP, Multilayer Perceptron)进一步加入蛋白质突变的复杂交互效应预测能力,训练出的模型预测准确率达到Spearman相关系数为0.91。新蛋白设计与验证
在模型预测的新设计中,研究克隆了10个新的高评分突变蛋白,所有变体均有显著提高的折叠抑制能力(实验表现为10~38倍改进),无论是相比野生型蛋白还是深度突变扫描方法设计的对照组均表现优越。
研究结论
通过实验EvoScan与计算EvoAI的结合,本研究证明了高维蛋白质序列空间的极端可压缩性,将~10^50大小的理论设计空间压缩至高功能表现的82个锚点。研究不仅为蛋白质设计开辟了新途径,也揭示了生物进化的潜在简化机制。
研究亮点与意义
- 极端压缩性:发现高维蛋白质序列空间可以通过极少数锚点代表并重建。
- 多功能普适性:EvoScan在蛋白-蛋白、蛋白-配体与蛋白-核酸互作中的广泛适用性。
- 高效预测能力:EvoAI设计的新变体大幅提高了实际蛋白质功能。
- 进化理论启示:实验支持了自然选择可能利用基因型空间压缩机制进行功能优化的假设。
这项技术突破为今后蛋白质工程及合成生物学应用提供了强有力的工具,同时也可能激发进化生物学等领域的更多深入探讨。