EPICPred : Prédire les phénotypes pilotés par les TCR liant les épitopes en utilisant l'apprentissage multi-instances basé sur l'attention
Les récepteurs des cellules T (TCR) jouent un rôle crucial dans le système immunitaire adaptatif, en reconnaissant les agents pathogènes par leur liaison à des épitopes spécifiques. Comprendre les interactions entre les TCR et les épitopes est essentiel pour dévoiler les mécanismes biologiques des réponses immunitaires et pour développer des immunothérapies médiées par les cellules T. Cependant, bien que l’importance de la région CDR3 des TCR dans la reconnaissance des épitopes soit largement reconnue, prédire avec précision les interactions TCR-épitope associées à des maladies ou à des phénotypes spécifiques reste un défi. Pour relever ce défi, les chercheurs ont développé EpicPred, un modèle d’apprentissage multi-instances (Multiple Instance Learning, MIL) basé sur un mécanisme d’attention, conçu pour prédire les interactions TCR-épitope liées au cancer ou à la gravité des patients atteints de COVID-19.
Source de l’article
Cet article a été co-écrit par Jaemin Jeon, Suwan Yu, Sangam Lee, Sang Cheol Kim, Hye-Yeong Jo, Inuk Jung et Kwangsoo Kim, affiliés respectivement à l’Université nationale de Séoul, à l’Université Yonsei, à l’Institut national de santé de Corée, à l’Université nationale de Kyungpook et à l’Hôpital de l’Université nationale de Séoul. L’article a été publié en 2025 dans la revue Bioinformatics sous le titre “EpicPred: Predicting Phenotypes Driven by Epitope-Binding TCRs Using Attention-Based Multiple Instance Learning”.
Démarche de la recherche
1. Collecte et prétraitement des données
La recherche a commencé par la collecte de 244 552 séquences de TCR et de 105 épitopes uniques provenant de six bases de données publiques de TCR. Ces données ont été utilisées pour entraîner et tester le modèle EpicPred. Pour réduire le bruit, les chercheurs ont filtré les séquences de TCR, excluant celles dont la longueur était inférieure à 8 ou supérieure à 22 acides aminés, ainsi que celles contenant des acides aminés non standard.
2. Reconnaissance en ensemble ouvert (Open-Set Recognition, OSR)
EpicPred utilise d’abord une méthode de reconnaissance en ensemble ouvert (OSR) pour prédire et éliminer les séquences de TCR peu susceptibles de se lier à des épitopes, afin de réduire les faux positifs. La méthode OSR permet de distinguer efficacement les TCR se liant à des épitopes (EB-TCRs) de ceux ne se liant pas à des épitopes (NEB-TCRs).
3. Modèle d’apprentissage multi-instances (MIL)
Après la prédiction des EB-TCRs, EpicPred utilise un modèle d’apprentissage multi-instances pour identifier les interactions TCR-épitope associées à des types de cancer ou à la gravité des patients atteints de COVID-19. Le modèle encode les séquences de TCR via BERT (Bidirectional Encoder Representations from Transformers) et applique un mécanisme d’attention pour regrouper les séquences de TCR similaires, générant ainsi des vecteurs de représentation d’échantillons.
4. Prédiction du phénotype
L’objectif final d’EpicPred est de prédire le phénotype des patients, comme le cancer ou la gravité de la COVID-19. Le modèle calcule la probabilité de liaison de chaque TCR à un épitope et utilise la méthode K-means pour regrouper les séquences de TCR similaires, puis entraîne un modèle de prédiction de phénotype. Deux fonctions de perte sont utilisées : la perte spécifique aux TCR et la perte spécifique aux échantillons, respectivement pour déterminer la relation entre une séquence de TCR individuelle et le phénotype, et pour détecter un groupe de TCR associé au phénotype.
Résultats principaux
1. Prédiction des EB-TCRs
Dans les expériences de prédiction des EB-TCRs, EpicPred a montré des performances remarquables sur les ensembles de test fermés et ouverts. Sur l’ensemble de test fermé, le modèle a atteint un score F1 de 0,97 ± 0,01 pour prédire la liaison des TCR aux épitopes. Sur l’ensemble de test ouvert, EpicPred a pu distinguer efficacement les EB-TCRs des NEB-TCRs, avec un score F1 de 0,71 ± 0,01.
2. Prédiction du phénotype
EpicPred a excellé dans la prédiction de la gravité des patients atteints de COVID-19 et du phénotype des échantillons de cancer. Dans les ensembles de données sur la COVID-19, le modèle a atteint un AUROC (Area Under the Receiver Operating Characteristic) de 0,80 ± 0,07 pour prédire les cas modérés et graves. Dans les ensembles de données sur le cancer, EpicPred a obtenu un AUROC de 0,78 ± 0,04 pour distinguer les échantillons sains des échantillons cancéreux.
3. Analyse des données unicellulaires
Grâce à l’analyse des données de séquençage d’ARN unicellulaire, EpicPred a identifié des sous-populations cellulaires associées à la gravité de la COVID-19. L’étude a révélé que les cellules avec des scores d’attention élevés présentaient des différences significatives dans la reconnaissance des épitopes du SARS-CoV-2, indiquant que ces cellules jouent un rôle clé dans la prédiction du phénotype.
Conclusion et signification
EpicPred, en combinant la reconnaissance en ensemble ouvert et l’apprentissage multi-instances, a réussi à prédire les interactions TCR-épitope associées au cancer et à la gravité de la COVID-19. Ce modèle améliore non seulement la précision de la prédiction des phénotypes, mais offre également de nouvelles perspectives sur le rôle des TCR dans les réponses immunitaires. Le développement d’EpicPred fournit un outil important pour les futures immunothérapies et la conception de vaccins, avec des applications prometteuses dans le domaine de la médecine personnalisée et de l’immunothérapie de précision.
Points forts de la recherche
- Conception novatrice du modèle : EpicPred est le premier à combiner la reconnaissance en ensemble ouvert avec l’apprentissage multi-instances, permettant de distinguer efficacement les EB-TCRs des NEB-TCRs et obtenant des résultats significatifs dans la prédiction des phénotypes.
- Précision élevée : Sur plusieurs ensembles de données publics, EpicPred a surpassé les méthodes existantes dans la prédiction des liaisons TCR-épitope et dans la classification des phénotypes.
- Analyse des données unicellulaires : Grâce au séquençage d’ARN unicellulaire, EpicPred a identifié des sous-populations cellulaires associées à la gravité de la COVID-19, offrant de nouvelles perspectives sur les mécanismes des réponses immunitaires.
Autres informations utiles
L’implémentation logicielle d’EpicPred est open source et disponible sur GitHub, permettant aux chercheurs d’utiliser et de modifier librement le modèle pour approfondir les études sur les interactions TCR-épitope. De plus, l’équipe de recherche prévoit d’étendre EpicPred à d’autres domaines de maladies pour explorer son potentiel dans des recherches immunologiques plus vastes.
Grâce à cette étude, EpicPred propose non seulement une nouvelle méthode pour prédire les interactions TCR-épitope, mais ouvre également de nouvelles voies pour les futures immunothérapies et la conception de vaccins.