Apprentissage contrastif des représentations des récepteurs des cellules T
Nouvelle percée dans la prédiction de la spécificité des récepteurs des cellules T (TCR) - Introduction du modèle SCEPTR
Contexte académique
Les récepteurs des cellules T (TCR) jouent un rôle crucial dans le système immunitaire. Ils déterminent la spécificité des réponses immunitaires en se liant aux peptides présentés par les complexes majeurs d’histocompatibilité (MHC). Comprendre les interactions entre les TCR et les complexes peptide-MHC (pMHC) est un défi majeur en immunologie. Bien que les technologies à haut débit aient fourni une quantité importante de données de séquences TCR, la prédiction précise de la capacité des TCR à se lier à des pMHC spécifiques reste un problème complexe. Actuellement, les modèles de langage protéique (PLMs) ont montré un potentiel important dans l’analyse de données à haut débit, mais leurs performances dans les tâches de prédiction de la spécificité des TCR sont décevantes, en particulier dans des contextes où les données sont limitées. Ainsi, la question de savoir comment exploiter efficacement les données non annotées de séquences TCR pour entraîner des modèles est devenue une clé pour résoudre ce problème.
Origine de l’article
Cet article a été coécrit par Yuta Nagano, Andrew G.T. Pyo, Martina Milighetti et d’autres auteurs issus de plusieurs institutions de renom, dont l’University College London et Princeton University. Il a été publié le 15 janvier 2025 dans la revue Cell Systems, sous le titre “Contrastive Learning of T Cell Receptor Representations”. L’étude propose un nouveau modèle de langage TCR appelé SCEPTR (Simple Contrastive Embedding of the Primary Sequence of T Cell Receptors), en introduisant une stratégie de pré-entraînement combinant l’apprentissage par contraste et le modélisation linguistique masquée (MLM), ce qui améliore significativement la précision de la prédiction de la spécificité des TCR.
Processus de recherche
1. Contexte du problème et motivation de la recherche
La prédiction de la capacité de liaison des TCR aux pMHC est l’une des questions centrales en immunologie. Bien que de nombreuses méthodes d’apprentissage automatique aient été appliquées dans ce domaine, ces modèles ont une faible capacité de généralisation lorsqu’ils rencontrent des pMHC jamais vus, en particulier dans des situations où les données sont limitées. Des études antérieures ont montré que les modèles de langage protéique existants (comme ProtBERT et ESM2) ont des performances médiocres dans les tâches de prédiction de la spécificité des TCR, voire inférieures aux méthodes d’alignement de séquences (comme TCRdist). Ainsi, cette étude vise à concevoir un modèle de langage protéique plus adapté à la prédiction de la spécificité des TCR en introduisant l’apprentissage par contraste.
2. Conception du modèle SCEPTR
L’innovation clé du modèle SCEPTR réside dans sa stratégie de pré-entraînement, qui combine l’apprentissage auto-contrastif (Autocontrastive Learning) et le modélisation linguistique masquée (MLM). Concrètement, SCEPTR divise une séquence TCR en ses six régions déterminant la complémentarité (CDRs), et vectorise chaque résidu d’acide aminé via un simple système de codage one-hot. Ces vecteurs sont ensuite passés à travers trois couches d’auto-attention pour générer un vecteur de représentation TCR de 64 dimensions.
L’idée centrale de l’apprentissage auto-contrastif est de générer deux “vues” indépendantes du même TCR et de rapprocher leurs représentations dans l’espace, tout en éloignant les représentations de TCR différents. Cette approche permet de surmonter efficacement les limitations du pré-entraînement par MLM traditionnel, en particulier lorsqu’il s’agit de traiter les variations de séquences TCR dominées par la recombinaison VDJ.
3. Mise en œuvre de l’apprentissage auto-contrastif
Dans l’apprentissage auto-contrastif, SCEPTR génère deux vues indépendantes en supprimant aléatoirement certaines caractéristiques d’entrée (comme certains résidus d’acide aminés ou une chaîne TCR entière). Cette méthode d’augmentation de données assure que le modèle peut capturer des caractéristiques liées à la spécificité des TCR dans un apprentissage non supervisé. De plus, SCEPTR utilise un jeton spécial
4. Évaluation des performances du modèle
Pour évaluer les performances de SCEPTR, l’équipe de recherche a conçu une tâche de prédiction standardisée avec peu d’exemples. Cette tâche exige que le modèle prédise si un TCR de requête se lie à un pMHC spécifique, étant donné un TCR de référence. L’étude a comparé les performances de SCEPTR avec celles des modèles existants (comme TCR-BERT, ProtBERT, ESM2) et des méthodes d’alignement de séquences (comme TCRdist).
Les résultats montrent que SCEPTR surpasse les modèles existants dans la plupart des cas, en particulier lorsque le nombre de TCR de référence est faible. Par exemple, lorsque le nombre de TCR de référence est de 200, SCEPTR dépasse TCRdist pour cinq des six pMHC testés. De plus, la stratégie d’apprentissage par contraste de SCEPTR améliore considérablement sa capacité à distinguer différents pMHC.
5. Expériences d’ablation
Pour vérifier la contribution de l’apprentissage auto-contrastif aux performances de SCEPTR, l’équipe de recherche a réalisé plusieurs expériences d’ablation. Les résultats montrent que la variante de SCEPTR entraînée uniquement avec MLM a des performances significativement inférieures, tandis que la variante utilisant l’apprentissage par contraste a des performances proches de TCRdist. De plus, l’étude a révélé que les vecteurs de représentation de SCEPTR peuvent capturer efficacement les caractéristiques de séquence liées à la spécificité des TCR, en particulier pour les séquences TCR avec une faible probabilité de génération (pgen).
Résultats et conclusions principaux
1. Avantages en termes de performances de SCEPTR
SCEPTR excelle dans les tâches de prédiction de la spécificité des TCR avec peu d’exemples, surpassant significativement les modèles existants. En particulier dans des situations où les données sont limitées, la stratégie d’apprentissage par contraste de SCEPTR lui permet de mieux généraliser à des pMHC jamais vus. L’étude a également révélé que les vecteurs de représentation de SCEPTR peuvent capturer des caractéristiques de spécificité des TCR que les méthodes d’alignement de séquences ne parviennent pas à saisir.
2. Valeur scientifique de l’apprentissage par contraste
Grâce à l’apprentissage par contraste, SCEPTR peut efficacement distinguer les TCR ayant la même spécificité dans l’espace de représentation, tout en éloignant les TCR de spécificités différentes. Cette propriété donne à SCEPTR un avantage significatif dans les tâches de prédiction de la spécificité des TCR, en particulier dans des contextes où les données sont limitées.
3. Perspectives d’application
L’introduction de SCEPTR offre un nouveau paradigme pour la prédiction de la spécificité des TCR. Ce modèle peut non seulement être utilisé pour des tâches de prédiction avec peu d’exemples, mais également pour l’analyse de regroupement des séquences TCR, permettant ainsi la découverte de groupes de cellules T spécifiques à un antigène (métaclonotypes). De plus, la stratégie d’apprentissage par contraste de SCEPTR ouvre de nouvelles perspectives pour d’autres tâches liées aux protéines.
Points forts de la recherche
- Stratégie de pré-entraînement innovante : SCEPTR, en combinant l’apprentissage par contraste et le MLM, améliore significativement les performances du modèle dans les tâches de prédiction de la spécificité des TCR.
- Efficacité des données : SCEPTR excelle dans des tâches avec peu d’exemples, exploitant efficacement les données non annotées de séquences TCR.
- Perspectives d’application larges : SCEPTR peut non seulement être utilisé pour la prédiction de la spécificité des TCR, mais également pour l’analyse de regroupement des séquences TCR et d’autres tâches liées aux protéines.
Conclusion
Cette étude, en introduisant le modèle SCEPTR, propose une nouvelle stratégie de pré-entraînement combinant l’apprentissage par contraste et le modélisation linguistique masquée, offrant ainsi une nouvelle solution pour la prédiction de la spécificité des TCR. Cette recherche résout non seulement le problème de généralisation des modèles existants dans des situations où les données sont limitées, mais propose également un nouveau paradigme pour l’entraînement des modèles de langage protéique, avec une importante valeur scientifique et des perspectives d’application prometteuses.