基于共享肽段的蛋白质和翻译后修饰的相对定量

在蛋白质组学研究中,质谱技术(Mass Spectrometry, MS)被广泛用于分析蛋白质的丰度和结构变化。然而,蛋白质的定量分析面临一个关键挑战:许多蛋白质共享相同的肽段(shared peptides),即这些肽段在多个蛋白质的序列中出现。传统的方法通常仅依赖于唯一肽段(unique peptides)进行蛋白质定量,忽略了共享肽段的信息,这可能导致定量结果的偏差或不准确。特别是在研究蛋白质异构体(protein isoforms)或翻译后修饰(post-translational modifications, PTMs)时,共享肽段的存在使得定量分析更加复杂。

为了解决这一问题,研究者们提出了一种新的统计方法,旨在利用共享肽段的定量信息,更准确地估计蛋白质的丰度和PTMs的位点占有率。该方法通过将共享肽段的定量模式建模为单个蛋白质或修饰位点丰度的凸组合(convex combination),并估计每个来源的丰度及其权重,从而提高了定量分析的精度。

论文来源

该研究由来自多个机构的团队共同完成,包括波兰弗罗茨瓦夫大学(University of Wrocław)、比利时哈塞尔特大学(Hasselt University)、美国东北大学(Northeastern University)、Genentech公司以及Pfizer公司等。论文的主要作者包括Mateusz Staniak、Ting Huang、Amanda M. Figueroa-Navedo等,通讯作者为Olga Vitek。该论文于2025年发表在Bioinformatics期刊上,题为《Relative quantification of proteins and post-translational modifications in proteomic experiments with shared peptides: a weight-based approach》。

研究流程与结果

1. 研究设计

该研究提出了一种新的统计模型,用于在存在共享肽段的情况下,同时估计多个蛋白质或PTM位点的丰度。该方法基于质谱实验中的定量信息,特别是使用同位素标记(isobaric labeling)技术(如TMT,Tandem Mass Tags)的实验数据。研究团队开发了一个开源的R包msstatsweightedsummary,用于实现该方法。

2. 模型构建

该模型的核心思想是将共享肽段的定量模式建模为多个蛋白质或PTM位点丰度的加权组合。具体来说,对于每个肽段,模型估计其在不同蛋白质或PTM位点中的贡献权重,并基于这些权重计算每个蛋白质或PTM位点的丰度。模型的形式如下:

[ x{cf} = \mu + \sum{k \in V(f)} \text{weight}_{fk} (\text{protein}k + \text{channel}{kc}) + \text{feature}f + \epsilon{cf} ]

其中,(x_{cf})表示肽段(f)在通道(c)中的对数强度,(\mu)表示总体丰度均值,(\text{protein}k)表示蛋白质(k)的丰度,(\text{channel}{kc})表示通道(c)对蛋白质(k)的影响,(\text{feature}f)表示肽段(f)的特异性效应,(\epsilon{cf})表示随机误差。

3. 优化与实现

为了估计模型参数,研究团队采用了一种迭代优化算法。首先,基于唯一肽段估计蛋白质的初始丰度,然后逐步更新共享肽段的权重和蛋白质的丰度,直到权重收敛。该方法使用了Huber损失函数(Huber loss)来处理异常值,确保了模型的鲁棒性。

4. 实验结果

研究团队通过模拟数据和实际实验数据验证了该方法的有效性。在模拟数据中,该方法显著提高了对数倍变化(log2-fold change)估计的精度,特别是在蛋白质仅有少量唯一肽段的情况下。在实际实验中,该方法成功应用于蛋白质降解研究、热蛋白质组稳定性分析以及PTM定量分析等多个场景,证明了其在不同生物研究中的广泛适用性。

4.1 蛋白质降解研究

在蛋白质降解研究中,研究团队分析了BET溴结构域蛋白(BET bromodomain proteins)的降解动力学。通过使用共享肽段的信息,该方法成功区分了不同蛋白质的降解速率,验证了其在实际应用中的有效性。

4.2 热蛋白质组分析

在热蛋白质组分析中,研究团队比较了不同温度下蛋白质的稳定性。通过引入共享肽段的定量信息,该方法提高了对蛋白质热稳定性变化的检测灵敏度,特别是在蛋白质仅有少量唯一肽段的情况下。

4.3 PTM定量分析

在PTM定量分析中,研究团队研究了磷酸化位点的变化。通过将共享肽段的定量信息纳入模型,该方法成功区分了不同磷酸化位点的变化模式,提高了PTM定量分析的准确性。

5. 结论

该研究提出了一种基于共享肽段的加权统计方法,显著提高了蛋白质和PTM定量分析的精度。该方法通过建模共享肽段的定量模式,解决了传统方法在存在共享肽段时的定量偏差问题,为蛋白质组学研究提供了新的工具。

研究亮点

  1. 创新性方法:该研究首次提出了一种基于共享肽段的加权统计模型,填补了蛋白质组学定量分析中的空白。
  2. 广泛适用性:该方法不仅适用于蛋白质定量,还可用于PTM位点的定量分析,具有广泛的应用前景。
  3. 开源工具:研究团队开发了开源的R包msstatsweightedsummary,方便其他研究者使用和扩展该方法。

研究意义

该研究为蛋白质组学定量分析提供了新的思路和方法,特别是在处理共享肽段时,显著提高了定量结果的准确性和可靠性。该方法的应用将有助于更深入地理解蛋白质的功能和调控机制,推动蛋白质组学在生物医学研究中的应用。