使用原子力显微镜和深度神经网络确定RNA构象结构

学术背景

RNA(核糖核酸)是生命体中至关重要的分子,参与了基因表达、调控和催化等多种生物过程。尽管人类基因组的大部分被转录为RNA,但RNA分子的结构研究仍然面临巨大挑战。RNA分子通常具有高度的构象异质性和灵活性,这是其功能的前提,但也限制了传统结构解析方法(如核磁共振(NMR)、X射线晶体学和冷冻电镜(cryo-EM))的应用。特别是对于大分子RNA,由于其构象多样性和缺乏大规模RNA结构数据库,现有的蛋白质结构预测方法(如AlphaFold)无法直接应用于RNA。因此,如何准确解析大分子RNA的三维结构,尤其是其构象异质性,成为RNA结构生物学中的一个重要难题。

论文来源

这篇论文由Maximilia F. S. DegenhardtHermann F. DegenhardtYuba R. Bhandari等来自美国国家癌症研究所(National Cancer Institute)美国国家糖尿病、消化和肾脏疾病研究所(National Institute of Diabetes and Digestive and Kidney Diseases)等多个研究机构的科学家共同撰写。论文于2024年发表在Nature期刊上,题为《Determining structures of RNA conformers using AFM and deep neural networks》。

研究流程

1. 研究目标与方法概述

该研究提出了一种名为HORNET的新方法,结合了原子力显微镜(AFM)、无监督机器学习和深度神经网络(DNN),用于解析RNA分子的三维拓扑结构。HORNET方法的核心在于利用AFM图像捕捉溶液中单个RNA分子的高分辨率拓扑信息,并通过机器学习和深度学习算法对这些信息进行分析,从而重建RNA的三维结构。

2. 实验流程

a) AFM图像获取与处理

研究首先使用AFM对RNA分子进行成像,获取单个RNA分子的高分辨率拓扑图像。AFM的优势在于其高信噪比,能够捕捉大分子RNA在不同构象下的结构特征。研究人员对AFM图像进行了噪声估计和分辨率分析,确保图像的质量足以用于后续的结构重建。

b) 动态拟合与模型生成

研究人员使用粗粒化分子动力学模拟(coarse-grained molecular dynamics)对RNA分子进行动态拟合,生成大量的构象模型。这些模型通过AFM图像的拓扑信息进行约束,确保生成的模型与实验数据一致。动态拟合过程中,研究人员引入了AFM伪势能(AFM pseudo-potential)和经典的Gibbs自由能描述,驱动模型向实验数据收敛。

c) 无监督机器学习(UML)与模型筛选

在动态拟合生成的模型基础上,研究人员使用无监督机器学习(UML)对这些模型进行聚类和筛选。UML算法结合了能量信息、AFM拓扑信息以及RNA的层次折叠原则,筛选出与实验数据最吻合的模型。通过主成分分析(PCA)和聚类算法,研究人员从大量模型中筛选出能量最低且与AFM图像最匹配的模型。

d) 深度神经网络(DNN)与精度估计

为了进一步提高模型的精度,研究人员开发了一种深度神经网络(DNN),用于估计每个模型与真实结构之间的均方根偏差(RMSD)。DNN通过训练一个包含350万RNA结构模型的数据库(PSDatabase),能够准确预测模型的精度。DNN的训练和验证过程表明,该方法能够有效地估计未知RNA结构的精度,尤其是在RMSD小于7 Å的范围内。

e) 验证与应用

研究人员将HORNET方法应用于多个RNA分子,包括RNase P RNA和HIV-1 Rev响应元件(RRE)RNA。通过AFM图像和HORNET方法,研究人员成功解析了这些RNA分子的多个异构体结构,展示了该方法在解析大分子RNA构象异质性方面的强大能力。

主要结果

  1. AFM图像与结构重建:研究人员通过AFM成功捕捉了RNase P RNA和HIV-1 RRE RNA的多个构象,并通过HORNET方法重建了这些RNA的三维结构。重建的结构与已知的晶体结构相比,RMSD在3-6 Å之间,表明HORNET方法能够准确解析RNA的拓扑结构。

  2. 无监督机器学习的有效性:通过无监督机器学习,研究人员从大量动态拟合生成的模型中筛选出了与实验数据最吻合的模型。这些模型的RMSD在5 Å左右,表明UML算法能够有效地筛选出高质量的结构模型。

  3. 深度神经网络的精度估计:DNN能够准确估计每个模型与真实结构之间的RMSD,尤其是在RMSD小于7 Å的范围内。DNN的预测结果与UML筛选的模型高度一致,进一步验证了HORNET方法的可靠性。

  4. HIV-1 RRE RNA的结构解析:研究人员成功解析了HIV-1 RRE RNA的多个构象,并发现这些构象在Rev蛋白结合位点之间的距离存在显著差异。这一发现为理解HIV-1病毒如何特异性识别RRE RNA提供了新的见解。

结论与意义

HORNET方法通过结合AFM、无监督机器学习和深度神经网络,成功解决了大分子RNA构象异质性解析的难题。该方法不仅能够捕捉RNA分子的高分辨率拓扑信息,还能够通过机器学习算法准确重建RNA的三维结构。HORNET方法的提出为RNA结构生物学研究提供了新的工具,有望加速我们对RNA构象空间的理解,特别是在RNA功能、RNA靶向药物设计等领域具有广泛的应用前景。

研究亮点

  1. 创新性方法:HORNET方法首次将AFM、无监督机器学习和深度神经网络结合,用于解析RNA的三维结构,填补了RNA结构解析领域的空白。
  2. 高精度结构重建:通过HORNET方法,研究人员能够以高精度重建RNA的拓扑结构,RMSD在3-6 Å之间,展示了该方法在RNA结构解析中的强大能力。
  3. 广泛应用前景:HORNET方法不仅适用于已知RNA分子的结构解析,还可以用于未知RNA分子的结构预测,为RNA功能研究和药物设计提供了新的工具。

其他有价值的信息

研究人员还设计了一种新型分支肽,模拟HIV-1 Rev蛋白的二聚体结构,并展示了该肽与RRE RNA的高特异性结合能力。这一发现为开发新型抗HIV药物提供了新的思路。