使用自监督深度学习解决冷冻电镜中的偏好取向问题

克服单粒子冷冻电镜中的优选取向问题:深度学习的创新解法

背景介绍

近年来,单粒子冷冻电子显微镜(Single-Particle Cryo-EM)技术因其能够解析生物大分子在接近天然状态下的原子分辨率结构,已成为结构生物学领域的核心技术。然而,在实际应用中,研究者一直面临一个棘手的技术瓶颈,即“优选取向”(Preferred Orientation)问题。这一问题主要由于生物分子在冷冻电镜网格上分布不均,导致在某些方向上的数据采样不足。这种取向偏差通常是由样品制备过程中分子与空气-水界面(Air-Water Interface, AWI)或支撑膜-水界面的相互作用引起的。

优选取向问题在三维重构中显得尤为突出,因为它带来的各向异性(Anisotropy)会使三维结构受损,甚至失真,具体表现为二级结构偏斜、肽链断裂、密度不连续等问题,最终影响分子模型的构建及精确性。这种问题特别对低对称性或不对称性分子具有严重影响。在以往的研究中,解决优选取向问题的方式主要集中在生物化学和物理学领域,如调整样品制备方法、使用不同的支撑膜和添加试剂来改变分子行为。然而,这些方法通常复杂、耗时且昂贵,有时还可能引入新的干扰,例如较高的背景噪声或新的优选取向问题。

为克服这一难题,来自加州大学洛杉矶分校(University of California, Los Angeles)的Yun-Tao Liu、Hongcheng Fan、Jason J. Hu和Z. Hong Zhou提出了一种全新的计算方法。他们开发了一款基于“自监督深度学习”的工具SPISONet(Single-Particle IsoNet),能够在不改变样品制备流程的情况下,通过计算方式针对性地解决优选取向相关的各向异性问题。该研究发表于2025年1月的《Nature Methods》。


研究流程

研究目的

SPISONet的开发主要致力于解决优选取向问题带来的两大核心问题:1)重构过程中产生的各向异性;2)因各向异性导致的颗粒错位(Misalignment)。研究团队采用了深度学习网络及其新颖的自监督框架,提出了两个相互独立但又相辅相成的模块——各向异性校正模块(Anisotropy Correction Module)和错位校正模块(Misalignment Correction Module)。


工作流程和实验设计

1. 各向异性校正模块

该模块需要输入两个未经过滤的半图(Half-Maps)以及溶剂掩膜(Solvent Mask)。其核心流程包括: - 3DFSC的计算:利用三维傅里叶壳相关(3DFSC)算法来准确评估方向分辨率的各向异性。在SPISONet中集成了高效的3DFSC计算方法,通过降低计算复杂度,显著减少运行时间。 - 深度学习网络训练:基于U-Net架构的神经网络是该模块的重要技术支撑。网络的训练依赖于四种损失函数,包括数据一致性损失(Consistency Loss)、旋转等变损失(Equivariance Loss)、以及两种基于Noise2Noise框架的损失函数。这些损失函数确保了在信息恢复过程中,网络既能填补欠采样区域的数据,又能避免过拟合及伪影的生成。 - 信息恢复及去噪:通过自监督学习,SPISONet能够对各向异性区域的图像完成密度的补偿和局部去噪,从而改善三维重构地图的质量。

人工模拟和真实数据测试表明,SPISONet的各向异性校正模块在处理中等和轻度优选取向问题时,能够显著改善重构图像质量,甚至在较极端条件下也能够部分缓解优选取向造成的结构损伤。


2. 错位校正模块

在三维分子重构中,优选取向问题会导致错误的颗粒取向赋值,而这往往是重构伪影的根源之一。错位校正模块通过一个整合流程解决这一问题: - 参考图的生成:使用用户提供的参考图(可能来源于倾斜采集数据或低分辨率的初始结构)。 - 自动化迭代校正:模块结合RELION的3D重构和SPISONet的各向异性校正算法,逐步优化颗粒的取向分布。同时,为了避免潜在的初始参考模型偏倚(Model Bias),该模块还允许用户选择低分辨模式,以保证对结果的控制。 - 统一的误差控制:通过多步迭代优化,模块能够显著减轻取向偏差导致的伪影。

在与标准的三维重构流程相比较时,SPISONet展示了显著的误差改正性能。在经过错位校正和各向异性结合应用后,多个案例中展现了清晰的二级结构密度,包括α螺旋的节距和氨基酸侧链。


数据集和实验证明

1. β-半乳糖苷酶数据集实验
研究团队使用β-半乳糖苷酶的Cryo-EM数据(RELION教程的数据集),通过挑选不同取向的颗粒(从2D分类中获得)来验证模块的有效性。结果显示,SPISONet成功改善了侧视图和顶视图颗粒所重建的各向异性地图,使得重构图中的二级结构密度更为完整。

2. 血凝素三聚体倾斜数据集
团队对40°倾斜采集的数据(EMPIAR-10097)进行了测试。经过SPISONet处理后,重构图分辨率提升至4.1Å,并修正了原图中不可见的侧链区域。此外,错位校正模块成功提高了图像各向同性,解除了原始数据中的方向分布偏差限制。

3. 严重优选取向的血凝素三聚体未倾斜数据
对于一个严重优选取向问题的数据集(EMPIAR-10096),SPISONet结合错位校正和各向异性校正,最终生成3.5Å分辨率的重构图。令人瞩目的是,这一方法成功解决了传统方法难以克服的重构伪影。

4. 病原性70S核糖体数据集
该实验对Acinetobacter baumannii 70S核糖体数据集中经过筛选的优选取向颗粒进行了处理。在使用不同低分辨率参考(70S或80S核糖体)作为基础的测试中,SPISONet均能生成优质重构图,进一步证明了其灵活性和适用性。

5. HIV病毒样粒子(VLP)
在HIV VLP亚颗粒平均化实验中,SPISONet生成的3.6Å分辨率的结构显示,优化后的图像各项指标均显著优于标准管线,体现了其在原位生物结构研究中的价值。


研究结果与总结

SPISONet通过深度学习和自监督框架,不仅有效解决了优选取向问题,还为冷冻电镜重构任务提供了一个高效且通用的计算解决方案。它的主要优势包括: 1. 工作流纯计算化:可极大简化制样流程,减少人为干预。 2. 对极端数据表现优异:即使在严重优选取向数据集中也能取得高质量结构。 3. 灵活性和泛用性:支持多种生物分子的分析,适用于单颗粒Cryo-EM和亚颗粒平均化方法。

这种创新性的计算工具不仅扩展了Cryo-EM在复杂生物样品研究中的适用性,还为高通量和高精度的结构解析铺平了道路。