Exploitation des dynamiques instance-label via l'apprentissage contrastif ancré réciproque pour l'extraction de relations en peu de coups

Exploitation de la dynamique instance-étiquette via l’apprentissage contrastif ancré réciproque pour l’extraction de relations en peu de coups

Contexte académique

Dans le domaine du traitement du langage naturel (Natural Language Processing, NLP), l’extraction de relations (Relation Extraction, RE) est une tâche fondamentale visant à identifier et extraire les relations entre les entités dans un texte. Cependant, les méthodes d’apprentissage supervisées traditionnelles dépendent de grandes quantités de données annotées, et dans les applications pratiques, la rareté des données annotées limite sérieusement les performances des modèles. Pour relever ce défi, l’extraction de relations en peu de coups (Few-Shot Relation Extraction, FSRE) a émergé, visant à entraîner des modèles avec peu de données annotées pour qu’ils puissent identifier avec précision les relations entre entités avec un nombre limité d’échantillons.

Ces dernières années, les modèles de langage pré-entraînés (Pre-trained Language Models, PLMs) ont réalisé des progrès significatifs dans les tâches de FSRE, en particulier en combinant des méthodes d’apprentissage contrastif (Contrastive Learning, CL), qui permettent d’exploiter efficacement la dynamique entre les instances et les étiquettes. Cependant, les méthodes existantes présentent encore des lacunes dans l’utilisation complète des paires instance-étiquette pour extraire des représentations sémantiques riches. Pour remédier à cela, cet article propose un cadre basé sur l’apprentissage contrastif ancré réciproque (Reciprocal Anchored Contrastive Learning, RACL), visant à améliorer les performances des tâches de FSRE grâce à l’apprentissage contrastif multi-vues.

Source de l’article

Cet article a été co-écrit par Yanglei Gan, Qiao Liu, Run Lin, Tian Lan, Yuxiang Cai, Xueyi Liu, Changlin Li et Yan Liu de l’École d’ingénierie informatique de l’Université des sciences et technologies électroniques de Chine. L’article a été publié en 2025 dans la revue Neural Networks sous le titre Exploiting Instance-Label Dynamics through Reciprocal Anchored Contrastive Learning for Few-Shot Relation Extraction.

Processus de recherche et résultats

1. Processus de recherche

a) Conception du cadre d’apprentissage contrastif ancré réciproque

L’idée centrale du cadre RACL est d’améliorer la compréhension des relations sémantiques par le modèle grâce à l’apprentissage contrastif ancré réciproque entre les instances et les étiquettes. Concrètement, RACL utilise un objectif contrastif symétrique, combinant les pertes contrastives au niveau de l’instance et de l’étiquette, pour promouvoir l’uniformité et la cohérence de l’espace de représentation. Le cadre est divisé en deux phases : pré-entraînement et ajustement fin.

  • Phase de pré-entraînement : RACL utilise deux modèles BERT indépendants comme encodeurs d’étiquettes et de phrases. En traitant des paires phrase-étiquette, le modèle génère des représentations sémantiques de haute dimension. Les tâches de pré-entraînement incluent l’apprentissage contrastif ancré réciproque (RCL) et la modélisation de langage masqué (MLM). Le RCL optimise l’espace de représentation en maximisant la similarité cosinus des paires phrase-étiquette correctes tout en minimisant celle des paires incorrectes.

  • Phase d’ajustement fin : Dans la phase d’ajustement fin, RACL combine les représentations de phrases et d’étiquettes obtenues lors du pré-entraînement pour générer des prototypes hybrides (Hybrid Prototype) utilisés pour la classification des relations. En introduisant une perte contrastive symétrique, RACL optimise davantage la discriminabilité des prototypes, leur permettant de mieux distinguer les relations sémantiquement similaires.

b) Jeux de données et configuration expérimentale

RACL a été testé sur deux jeux de données de référence : FewRel 1.0 et FewRel 2.0. FewRel 1.0 contient 70 000 instances et 100 types de relations, tandis que FewRel 2.0 ajoute un ensemble de test issu du domaine biomédical à FewRel 1.0, incluant également la catégorie “None of the Above” (NOTA). Les expériences ont été menées avec quatre configurations en peu de coups : 5-way-1-shot, 5-way-5-shot, 10-way-1-shot et 10-way-5-shot.

2. Résultats principaux

a) Performances en extraction de relations en peu de coups

RACL a obtenu des résultats significativement supérieurs aux méthodes existantes sur les jeux de données FewRel 1.0 et FewRel 2.0. Sur l’ensemble de test de FewRel 1.0, RACL a atteint les taux de précision les plus élevés dans les configurations 5-way-1-shot, 5-way-5-shot et 10-way-5-shot, avec respectivement 95,59 %, 96,82 % et 96,19 %. Dans le test interdomaines de FewRel 2.0, RACL a mené dans les configurations 5-way-1-shot et 10-way-1-shot avec des taux de précision de 81,80 % et 72,48 %, démontrant ainsi sa forte capacité d’adaptation interdomaines.

b) Efficacité de l’apprentissage contrastif ancré réciproque

En comparant les distributions de caractéristiques de différentes méthodes de pré-entraînement, RACL a montré un effet de clustering plus compact et cohérent, indiquant qu’il peut mieux aligner les représentations des instances et des étiquettes. De plus, RACL a maintenu des performances élevées lorsqu’il est combiné avec d’autres méthodes de pré-entraînement comme MAPRE et LPD, validant davantage les avantages uniques de son apprentissage contrastif ancré réciproque.

c) Performances en extraction de relations en zéro coup

Dans la tâche d’extraction de relations en zéro coup (Zero-Shot Relation Extraction, ZSRE), RACL a également excellé. Sur l’ensemble de validation de FewRel 1.0, RACL a atteint des taux de précision de 73,50 % et 58,90 % dans les configurations 5-way-0-shot et 10-way-0-shot, surpassant significativement les autres méthodes.

3. Conclusion et signification

Le cadre RACL améliore efficacement les performances des tâches d’extraction de relations en peu de coups grâce à l’introduction de l’apprentissage contrastif ancré réciproque. Ses contributions principales sont : - Apprentissage contrastif multi-vues : RACL capture mieux les relations sémantiques grâce à l’apprentissage contrastif ancré réciproque entre les instances et les étiquettes, améliorant la capacité discriminante du modèle. - Perte contrastive symétrique : En introduisant une perte contrastive symétrique, RACL assure la cohérence des représentations des instances et des étiquettes, renforçant la capacité de généralisation du modèle. - Capacité d’adaptation interdomaines : RACL a montré des performances exceptionnelles dans le test interdomaines de FewRel 2.0, démontrant sa robustesse dans des scénarios complexes.

4. Points forts de la recherche

  • Méthode innovante : RACL est la première à appliquer l’apprentissage contrastif ancré réciproque aux tâches d’extraction de relations en peu de coups, améliorant significativement les performances du modèle grâce à l’apprentissage contrastif multi-vues.
  • Applicabilité large : RACL excelle non seulement dans les configurations en peu de coups, mais montre également une forte capacité d’adaptation dans les tâches en zéro coup et interdomaines.
  • Code et modèle open source : L’équipe de recherche a rendu public le code de pré-entraînement et le modèle de RACL, fournissant une ressource précieuse pour les recherches futures.

Résumé

Le cadre RACL propose une solution novatrice et efficace pour les tâches d’extraction de relations en peu de coups grâce à l’apprentissage contrastif ancré réciproque. Sa stratégie d’apprentissage contrastif multi-vues et sa conception de perte contrastive symétrique améliorent significativement la capacité de compréhension sémantique et de généralisation du modèle. À l’avenir, RACL pourrait être appliqué à davantage de tâches NLP, propulsant ainsi le développement du domaine de l’apprentissage en peu de coups.