使用机器学习和组合化学加速mRNA传递的可离子化脂质发现

#利用机器学习和组合化学加快mRNA递送的可离子化脂质的发现

研究背景

为了释放信使RNA(mRNA)治疗的全部潜力,扩展脂质纳米颗粒(LNPs)的工具包至关重要。然而,LNPs开发的一个关键瓶颈是识别新的可离子化脂质。已有研究表明,LNPs在将mRNA递送至特定组织或细胞中表现出显著效果。经典的LNPs配方通常由一个离子脂质、胆固醇、辅助脂质和聚乙二醇化脂质(PEG脂质)组成,其中离子脂质在mRNA的加载和逃离内涵体方面起着至关重要的作用。

近年来,LNPs在临床应用方面取得了重大进展。例如,美国食品药品监督管理局(FDA)批准了首个针对遗传性淀粉样变蛋白病的短发夹RNA(siRNA)药物Onpattro,以及Moderna和Pfizer/BioNTech联合开发的两款SARS-CoV-2疫苗。尽管如此,每一种已获FDA批准的LNPs配方都包含一个独特的离子脂质。除了对传统的化学反应平台的依赖外,如何加快新型mRNA递送脂质的发现仍然面临很大的挑战。

论文来源

该研究论文题为“利用机器学习和组合化学加快mRNA递送的可离子化脂质的发现”,由Bowen Li、Idris O. Raji、Akiva G. R. Gordon等人撰写,分别隶属于麻省理工学院、波士顿儿童医院、密歇根大学、多伦多大学等机构。论文已在《Nature Materials》上发表,发表时间为2024年3月。

研究流程

研究步骤

  1. 化学多样性库的创建: 研究从一个简单的四组分反应平台开始,创建了一个包含584种化学多样的可离子化脂质库。这些脂质通过四成分反应(4CR)系统合成,包括胺、异腈、醛和羧酸作为反应物。

  2. LNPs的筛选和基础数据集的构建: 首先对LNPs中这些脂质的mRNA转染效率进行筛选,筛选了包含这些脂质的LNPs,并将数据作为训练各种机器学习模型的基础数据集。

  3. 机器学习模型的训练与挑选: 使用584种脂质的mRNA转染结果,训练了三种非线性机器学习(ML)算法:随机森林、逻辑回归和梯度提升,其中XGBoost算法表现最佳。通过随机分区和过度采样技术来减轻ML算法潜在的偏见,并利用PaDEL-Descriptor软件生成的分子描述符来表示每种脂质的化学结构。

  4. 虚拟脂质库的筛选与实验验证: 选择表现最佳的模型来探查一个包含40,000种脂质的虚拟库,并合成实验验证了挑选出的16种脂质。

  5. 新型脂质119-23的发现和性能评估: 成功识别出一种编号为119-23的脂质,其在多种组织中的肌肉和免疫细胞转染效率优于已建立的基准脂质。

方法与实验细节

  1. 化学组分选择与反应设计: 研究团队通过4CR系统对三种变体的胺(头基)、四种变体的异腈(连接基)、八种变体的醛(尾基1)和四种变体的羧酸(尾基2)进行了组合,合成出384种化学多样的离子脂质。

  2. 机器学习算法的具体应用: 机器学习模型利用生成的2,014种分子描述符来预测脂质在mRNA递送中的表现。XGBoost算法在接收者操作特性曲线(ROC-AUC)和精确召回曲线(PR-AUC)上表现出色,最终被选择作为预测模型。

  3. 实验验证与优化: 合成了16种新的脂质,并通过i.m.注射分别在小鼠中测试了这些脂质的转染效率。脂质119-23显示出显著的转染效率,尤其是在肌肉和多种免疫细胞中的表现优于对照脂质。

研究结果

主结果

  1. 初步筛选与数据集构建: 通过高通量筛选,研究团队在HeLa细胞和小鼠体内共获得了584种离子脂质的mRNA转染数据,构建了基础数据集。

  2. 最佳模型的选择和大规模筛选: XGBoost模型表现最佳,被用于筛选包含40,000种脂质的虚拟库,并从中识别出前16种表现优异的脂质用于进一步实验验证。

  3. 脂质119-23的发现与验证: 脂质119-23在多种组织中的mRNA转染效率超过基准脂质,尤其在肌肉和免疫细胞中的表现尤为突出。

研究结论

结论和意义

通过将机器学习与4CR化学反应相结合,研究团队开发了一种快速高效的可离子化脂质筛选方法,显著缩短了新型mRNA递送脂质的发现周期。脂质119-23的显著性能提升了mRNA在多种细胞类型中的转染效率,具有广泛的应用潜力。

亮点与新颖性

  1. 创新性组合化学平台:使用4CR平台进行可离子化脂质的高通量筛选,相较于三组分反应,有效提升了合成效率和产量。
  2. 机器学习在分子筛选中的应用:结合机器学习技术,提高了大规模化合物库筛选的效率。XGBoost模型在筛选中表现最佳。
  3. 新型脂质119-23的发现:在多种组织中的mRNA递送效果显著优于市售基准脂质,展示了其在疫苗和治疗性蛋白替代疗法中的潜力。

其他信息

研究还深入探讨了脂质组件在mRNA递送中的具体作用,通过分子描述符阐明了脂质成分与转染效率之间的关系。这些研究成果不仅丰富了可离子化脂质的化学库,也为未来的mRNA治疗提供了新的工具和方法。 该研究通过机器学习和组合化学的创新结合,开启了加速mRNA递送脂质开发的新路径,开拓了更为广阔的mRNA治疗前景。