EpicPred——基于注意力机制的多实例学习预测表位驱动的T细胞受体表型

T细胞受体(TCR)在适应性免疫系统中起着至关重要的作用,它们通过与特定抗原表位(epitope)结合来识别病原体。理解TCR与表位之间的相互作用对于揭示免疫反应的生物学机制以及开发T细胞介导的免疫疗法具有重要意义。然而,尽管TCR的CDR3区域在表位识别中的重要性已被广泛认可,但如何准确预测与特定疾病或表型相关的TCR-表位相互作用仍是一个挑战。为此,研究人员开发了EpicPred,一种基于注意力机制的多实例学习(Multiple Instance Learning, MIL)模型,旨在预测与癌症或COVID-19患者严重程度相关的TCR-表位相互作用。

论文来源

该论文由Jaemin Jeon、Suwan Yu、Sangam Lee、Sang Cheol Kim、Hye-Yeong Jo、Inuk Jung和Kwangsoo Kim共同撰写,分别来自首尔大学、延世大学、韩国国立保健研究院、庆北国立大学和首尔大学医院。论文于2025年发表在《Bioinformatics》期刊上,标题为“EpicPred: Predicting Phenotypes Driven by Epitope-Binding TCRs Using Attention-Based Multiple Instance Learning”。

研究流程

1. 数据收集与预处理

研究首先从六个公开的TCR数据库中收集了244,552条TCR序列和105个独特的表位。这些数据用于训练和测试EpicPred模型。为了减少噪声,研究人员对TCR序列进行了过滤,排除了长度小于8或大于22个氨基酸的序列,以及包含非标准氨基酸的序列。

2. 开放集识别(Open-Set Recognition, OSR)

EpicPred首先使用开放集识别(OSR)方法来预测并去除不太可能发生TCR-表位相互作用的序列,以减少假阳性。OSR方法能够有效区分已知和未知的表位结合TCR(epitope-binding TCRs, EB-TCRs)与非表位结合TCR(non-epitope-binding TCRs, NEB-TCRs)。

3. 多实例学习(MIL)模型

在预测EB-TCRs后,EpicPred使用多实例学习模型来识别与癌症类型或COVID-19患者严重程度相关的TCR-表位相互作用。该模型通过BERT(Bidirectional Encoder Representations from Transformers)对TCR序列进行编码,并应用注意力机制来聚合相似TCR序列,从而生成样本表示向量。

4. 表型预测

EpicPred的最终目标是预测患者的表型,例如癌症或COVID-19的严重程度。模型通过计算每个TCR与表位的结合概率,并使用K-means聚类将相似TCR序列分组,然后训练表型预测模型。研究中使用了两种损失函数:TCR特异性损失和样本特异性损失,分别用于确定单个TCR序列与表型的关系以及检测与表型相关的一组TCR。

主要结果

1. EB-TCRs的预测

在预测EB-TCRs的实验中,EpicPred在封闭测试集和开放测试集上均表现出色。在封闭测试集中,模型在预测TCR与表位结合时的F1分数达到了0.97±0.01。在开放测试集中,EpicPred能够有效区分EB-TCRs和NEB-TCRs,F1分数为0.71±0.01。

2. 表型预测

EpicPred在预测COVID-19患者严重程度和癌症样本的表型方面表现出色。在COVID-19数据集中,模型在预测中度与重度病例时的AUROC(Area Under the Receiver Operating Characteristic)达到了0.80±0.07。在癌症数据集中,EpicPred在区分健康与癌症样本时的AUROC为0.78±0.04。

3. 单细胞数据分析

通过对单细胞RNA测序数据的分析,EpicPred识别了与COVID-19严重程度相关的细胞亚群。研究发现,具有高注意力分数的细胞在识别SARS-CoV-2表位时表现出显著差异,表明这些细胞在预测表型中起到了关键作用。

结论与意义

EpicPred通过结合开放集识别和多实例学习,成功预测了与癌症和COVID-19严重程度相关的TCR-表位相互作用。该模型不仅提高了表型预测的准确性,还为理解TCR在免疫反应中的作用提供了新的视角。EpicPred的开发为未来的免疫疗法和疫苗设计提供了重要的工具,特别是在个性化医疗和精准免疫治疗领域具有广泛的应用前景。

研究亮点

  1. 新颖的模型设计:EpicPred首次将开放集识别与多实例学习结合,有效区分了EB-TCRs和NEB-TCRs,并在表型预测中取得了显著成果。
  2. 高精度预测:在多个公开数据集上,EpicPred在预测TCR与表位结合以及表型分类方面均优于现有方法。
  3. 单细胞数据分析:通过单细胞RNA测序数据,EpicPred识别了与COVID-19严重程度相关的细胞亚群,为理解免疫反应的机制提供了新的见解。

其他有价值的信息

EpicPred的软件实现已在GitHub上开源,研究人员可以自由使用和修改该模型,以进一步推动TCR与表位相互作用的研究。此外,研究团队还计划将EpicPred扩展到其他疾病领域,探索其在更广泛免疫学研究中的应用潜力。


通过这项研究,EpicPred不仅为TCR与表位相互作用的预测提供了新的方法,还为未来的免疫疗法和疫苗设计开辟了新的道路。