利用条件性蛋白扩散模型生成具有增强活性的人工可编程核酸酶序列

条件性蛋白扩散模型

深度学习助力蛋白质设计:基于条件扩散模型的功能蛋白序列生成

蛋白质是生命科学研究和应用的核心,其多样性和功能复杂性为科学家提供了无数可能性。随着深度学习技术的发展,蛋白质设计正迈向一个全新高度。由上海交通大学、剑桥大学等多个机构的科学家联合发表的研究《A conditional protein diffusion model generates artificial programmable endonuclease sequences with enhanced activity》展示了一种名为“条件蛋白扩散模型”(Conditional Protein Diffusion Model, 简称 CPDiffusion)的创新方法,用于设计具有增强功能的人工蛋白质序列。这一研究已发表在《Cell Discovery》期刊,为蛋白质工程和生物医学领域带来了重大突破。

背景与研究目标

近年来,深度学习在蛋白质功能设计中展现了强大的潜力。传统的蛋白质设计方法依赖于复杂的实验和理论模型,存在数据需求量大、训练成本高及优化周期长等问题,尤其在处理多功能域复杂蛋白时面临诸多挑战。而深度学习模型提供了一种数据驱动的手段,可以快速探索蛋白质序列的潜在设计空间。

研究团队将目光聚焦于 原核Argonaute(PAgos)蛋白,这种蛋白以其精准的DNA切割功能在基因编辑和分子诊断中备受关注。然而,现有PAgos的功能受限于低温下的切割活性和低效的酶促性能。因此,研究者提出通过深度学习模型生成优化后的人工PAgos序列,旨在提升其活性和稳定性,以满足更广泛的应用需求。

方法与技术创新

1. 条件扩散模型的设计

研究的核心是 CPDiffusion,一种基于条件扩散的蛋白序列生成模型。其基本原理是通过“扩散-去噪”过程,从随机分布中逐步还原出满足特定条件的蛋白质序列。具体来说:

  • 模型架构:采用等变图卷积网络(Equivariant Graph Convolutional Network),结合蛋白质的生化性质和拓扑结构信息。
  • 条件约束:模型训练时嵌入了蛋白的二级结构、模板骨架以及高度保守的氨基酸位点,从而引导生成序列更符合功能需求。
  • 训练数据:模型以近700个天然PAgos蛋白及20,000个多样化蛋白家族序列为基础进行训练,通过学习“序列-结构-功能”关系,生成新的多功能域长序列蛋白。

2. 序列生成与筛选

研究者以两种PAgos蛋白为模板(Kurthia massiliensis Ago (KmAgo)Pyrococcus furiosus Ago (PfAgo)),分别生成了27种和15种人工序列。这些序列的生成过程包括以下步骤:

  • 初筛:通过AlphaFold2预测结构,并基于局部结构相似性(PLDDT评分)和全局结构一致性(TM分数、RMSD值)进行筛选。
  • 实验验证:对候选蛋白进行表达、溶解性测试、DNA切割活性评估以及热稳定性测试。

主要研究结果

1. 功能增强的人工蛋白

实验显示,生成的人工KmAgo和PfAgo均表现出显著的功能增强:

  • KmAgo系列:27个生成的人工KmAgo(Km-APs)中,有24个表现出单链DNA(ssDNA)切割活性,其中20个活性优于野生型(WT),最佳蛋白的切割活性是WT的9倍。
  • PfAgo系列:15个生成的人工PfAgo(Pf-APs)均在45°C下展示切割活性,其中6个蛋白在中温条件下的活性超过了WT PfAgo在高温条件下的活性。

2. 热稳定性与功能特性

  • Km-APs:10种人工KmAgo表现出优于WT的热稳定性,同时在高温条件下保持较高的DNA切割活性。
  • Pf-APs:生成的PfAgo蛋白在低于WT的熔点(50°C vs 100°C)下,展示出增强的功能特性,表明其在中温条件下的应用潜力。

3. 序列多样性与保守性

生成的人工序列在保留核心催化位点的同时,展现出较高的序列多样性。与模板WT蛋白的序列相似性保持在50%-70%,而与其他野生型蛋白的相似性低于40%,证明了模型在探索序列新颖性方面的优势。

研究意义与应用前景

本研究的成功标志着基于深度学习的蛋白质设计迈入新阶段。CPDiffusion 提供了一种无需大量标注数据的高效蛋白生成方法,尤其适用于多功能域复杂蛋白的设计,具有以下潜在应用:

  1. 分子诊断与疾病检测:增强的PAgos蛋白可用于精准核酸检测,为病原体和癌症相关突变的早期诊断提供新工具。
  2. 基因编辑与治疗:生成的PAgos蛋白在靶向特定DNA/RNA序列方面表现出更高的效率,为基因编辑和靶向治疗提供了更强的支持。
  3. 环境与工业应用:具有优越稳定性和活性的人工蛋白可用于复杂环境下的生物催化。

总结

CPDiffusion展示了一种创新的蛋白质设计思路,其高效性、准确性及多样性为未来的蛋白质工程研究铺平了道路。随着技术的不断发展,深度学习辅助的功能蛋白设计有望在生物医学、环境科学和工业技术等领域释放更大的潜能。