DeepBlock:通过深度学习进行毒性控制的理性配体生成方法
深度学习应用于目标蛋白配体生成的最新研究:DeepBlock框架的提出与验证
背景与研究问题
药物发现过程中,寻找能够结合特定蛋白的配体分子(ligand)一直是核心目标。然而,目前的虚拟筛选方法(virtual screening)通常受限于化合物库的规模和化学空间的广度,难以在大规模化学空间中发现符合目标特性的创新化合物。相比之下,去新药设计(de novo drug design)通过从头生成分子结构,为探索现有化合物库之外的化学空间提供了崭新的可能性。
近年来,深度生成模型(deep generative models)在化学分子生成领域取得了显著进展,包括自回归模型(autoregressive models)、变分自编码器(variational autoencoders, VAE)、生成对抗网络(generative adversarial networks, GANs)、正态化流模型(normalizing flow models)和扩散模型(diffusion models)。然而,这些模型的普遍不足在于,它们多半是基于化学空间分布而进行分子生成,缺乏直接为特定靶标设计分子的能力,需要依赖额外的虚拟筛选或强化学习来评估分子与蛋白结合的适配性。
针对上述问题,来自Xidian University、Xi’an Jiaotong University、Macao Polytechnic University、University of Tsukuba和Hunan University等高校和研究机构的团队提出了一种名为DeepBlock的深度学习方法。该方法从DNA编码化合物库技术(DNA-encoded compound library)的启发中汲取灵感,利用模块化构建的策略实现基于目标蛋白序列的配体生成及其性质的精准调控。该研究发表于《Nature Computational Science》,文章题为“A deep learning approach for rational ligand generation with toxicity control via reactive building blocks”。
研究设计与创新框架
DeepBlock的研究流程
本研究提出的DeepBlock框架通过两步流程完成分子的生成:首先生成分子构建模块(building blocks),然后对模块进行重组以形成完整分子。这一设计旨在解决传统分子生成方法中多步骤处理导致的化学结构不一致问题,同时实现对模块间化学反应和分子性质的控制。
1. 分子片段化与重组算法
利用化学逆合成反应(retrosynthetic chemistry)的BRICS(Breaking of Retrosynthetically Interesting Chemical Substructures)算法,研究团队创新性地设计了一种基于图计算的分子片段化与重组算法。通过该算法,分子被分解为独立的模块序列(block sequences),并具备以下特点: - 在分解过程中,通过严格管理断键规则和节点/边的记录,确保分子的片段化与重组过程是双向唯一的。 - 在ChemBL数据集验证中,该算法在2,205,345个分子中仅失败了70次,成功率高达99.99683%,显示出其可靠性与实用性。
2. Block Generative Network(BGNet)的设计
BGNet是DeepBlock的核心生成网络,采用条件变分自动编码器(Conditional Variational Autoencoder, CVAE)设计,结合蛋白序列信息生成分子的模块序列。其中: - 双重编码方式:BGNet分别对配体模块序列和蛋白序列进行独立编码,再利用残差绑定感知模块(binding contribution perception module)预测蛋白残基的结合贡献值。这种设计解决了无法利用蛋白三维结构数据的困难。 - 模型预训练:通过对ChemBL数据集的预训练,极大拓展了化学空间范围,有效缓解了因蛋白-配体数据集规模有限导致的过拟合风险。
3. 优化算法的集成
研究团队将BGNet与模拟退火算法(Simulated Annealing, SA)及贝叶斯优化(Bayesian Optimization, BO)结合,以优化分子毒性等附加性质。在优化过程中,通过BGNet生成的潜在邻近候选分子,结合优化算法进行探索和筛选,生成的分子既与目标蛋白结合能力强,还具备良好的药物合成可行性。
实验设计与测试
团队使用CrossDocked 2020数据集中的100,000组蛋白-配体对进行模型训练,并在100个测试蛋白上生成目标配体分子用于评估。这些分子在以下指标上与现有模型进行比较: 1. 结合亲和力(Binding Affinity):使用Vina评分评估分子与目标结合的物理化学性能。 2. 药物相似性(Drug Likeness)与合成可行性:量化分子的药物开发潜力和实际合成难度。 3. 分子特性分布与多样性:分析生成分子的化学特性分布与参考分子库的一致性。
研究结果与关键发现
结果与分析
生成分子的结合亲和力 DeepBlock生成的分子在Vina评分上显示出较强的亲和力,且其分布更为集中,表明生成的候选分子一致性和可靠性较高。相比基线模型,如Pocket2Mol和TargetDiff,DeepBlock在分子质量和分布均匀性方面表现出明显优势。
药物相似性与合成可行性 DeepBlock生成的分子不仅结合亲和力高,而且在药物相似性(QED评分)和合成可行性(SAscore)上表现更优。其中,高亲和力分子并未牺牲分子的实际合理性,表明模型在生成现实可行的分子方面的能力。
分子性质的优化控制 基于SA或BO优化算法的毒性控制实验成功减少了生成分子的毒性水平,同时保留了目标蛋白的结合能力,进一步验证了DeepBlock在多目标任务中的实用性。
结构信息的泛化能力 在目标缺乏结构信息的情况下,DeepBlock通过蛋白序列设计的分子能够与已知抑制剂的关键结合结构相似,展现出其在新靶标药物发现中的潜力。
研究的亮点
- 首次提出模块化思路在分子生成中的应用,结合DNA编码化学库理念以实现构造化、可控的分子生成。
- 模块化分子生成方法在合成化学、药物开发中具有广泛的应用价值,特别是解决了分子层面上的不可合成性问题。
- 实验验证了模型在毒性优化和结合亲和力提升中的可行性,为药物设计中的「多属性优化」提供了新思路。
研究意义与未来方向
DeepBlock解决了现有药物设计模型中未能完美结合目标与化学空间的问题。通过模块生成和重构,模型兼顾了结构的化学实时性和分子的综合性质控制能力。这不仅为科学研究提供了创新工具,也推动了针对新靶标的药物开发和低毒化药物的精准设计。
未来,该团队计划在以下方向持续优化: 1. 探索模块的去新生成算法,以进一步提升分子多样性和创新性。 2. 将2D分子生成升级至三维(3D)分子结构层次,以更精准地满足药物发现环境需求。 3. 扩展DeepBlock模型在大规模药物研发项目中的实际应用场景。
这一研究不仅拓宽了深度学习在药物设计中的边界,同时也为创新药物发现提供了可视化和系统性的方法,必将在化学生物学和人工智能领域产生深远影响。