Un cadre de supervision mutuelle pour la segmentation et la génération d'expressions de référence

Un cadre de supervision mutuelle pour la segmentation et la génération d’expressions référentielles

Un cadre de supervision mutuelle pour la segmentation et la génération d’expressions référentielles

Contexte de recherche et problématique

Ces dernières années, les technologies d’interaction vision-langage ont connu des progrès significatifs dans le domaine de l’intelligence artificielle. Parmi elles, la segmentation d’expressions référentielles (Referring Expression Segmentation, RES) et la génération d’expressions référentielles (Referring Expression Generation, REG), en tant que deux tâches centrales, visent respectivement à localiser un objet cible dans une image en fonction d’une description en langage naturel et à générer son masque de segmentation, ainsi qu’à produire des descriptions linguistiques claires et précises pour un objet spécifique. Bien que ces deux tâches soient intrinsèquement inverses, leurs recherches sont souvent menées séparément, sans méthode systématique pour explorer comment elles peuvent se renforcer mutuellement.

Les principaux problèmes auxquels la recherche actuelle est confrontée incluent : 1) La tâche RES dépend de grandes quantités de données annotées, dont l’acquisition est coûteuse ; 2) Les expressions générées par REG peuvent être ambiguës, rendant difficile la localisation précise de l’objet cible ; 3) Bien que l’entraînement conjoint de RES et REG ait été exploré, il reste peu clair comment les deux tâches peuvent bénéficier efficacement l’une de l’autre dans un cadre d’apprentissage conjoint. Pour résoudre ces problèmes, les auteurs de cet article proposent un cadre de supervision mutuelle basé sur Transformer (Mutual Supervision Framework), qui résout les problèmes susmentionnés grâce à la conception de deux mécanismes de supervision — la supervision de désambiguïsation (Disambiguation Supervision) et la supervision de génération (Generation Supervision) — et améliore considérablement les performances des deux tâches.

Source de l’article

Cet article a été rédigé conjointement par Shijia Huang, Feng Li, Hao Zhang, Shilong Liu, Lei Zhang et Liwei Wang, issus respectivement de l’Université chinoise de Hong Kong, de l’Académie internationale d’économie numérique (IDEA), de l’Université des sciences et technologies de Hong Kong et de l’Université Tsinghua. L’article a été publié dans la revue International Journal of Computer Vision, avec le DOI 10.1007/s11263-024-02325-y, et sa date de publication est 2025.


Détails de la recherche et flux de travail

a) Flux de travail de la recherche

1. Aperçu du cadre

Le cadre de supervision mutuelle proposé dans cet article comprend trois modules principaux : - Extracteur de propositions partagé (Shared Proposal Extractor) : Basé sur Mask2Former (Cheng et al., 2022), il extrait des objets candidats à partir de l’image d’entrée. - Tête de génération indiquée (Indicated Generation Head) : Utilisé pour la tâche REG, il génère des descriptions en langage naturel pour les objets cibles. - Tête de sélection de propositions (Proposal Selection Head) : Utilisé pour la tâche RES, il sélectionne l’objet correspondant le mieux à une description linguistique donnée.

2. Processus détaillé

La recherche est divisée en trois étapes :

Étape 1 : Entraînement conjoint de bout en bout
  • Objet d’étude : Utilisation de trois ensembles de données publics RefCOCO, RefCOCO+ et RefCOCOG, tous issus de MS-COCO (Lin et al., 2014), contenant un grand nombre d’images et leurs expressions référentielles correspondantes.
  • Méthode de traitement :
    • Utilisation de ResNet-101 comme réseau principal visuel pour extraire les caractéristiques de l’image.
    • Mask2Former agit comme extracteur de propositions, générant 100 objets candidats et leurs masques de segmentation.
    • La tête de génération indiquée adopte une architecture de décodeur Transformer, combinant un nouveau module indicateur (Indicator Module) pour générer des descriptions linguistiques.
    • La tête de sélection de propositions repose également sur un décodeur Transformer, calculant les scores de correspondance entre la description linguistique et les objets candidats pour sélectionner le meilleur objet correspondant.
  • Paramètres expérimentaux : Optimisateur AdamW, taux d’apprentissage initial de 5e-4, taille de lot de 8, entraînement sur 90k itérations.
Étape 2 : Introduction de la supervision de désambiguïsation
  • Objet d’étude : Identique à l’étape précédente.
  • Méthode de traitement :
    • À ce stade, l’extracteur de propositions et la tête de sélection de propositions sont gelés, seul l’entraînement de la tête de génération indiquée est optimisé.
    • Introduction de l’apprentissage par renforcement (Reinforcement Learning), utilisant les scores de correspondance fournis par la tête de sélection de propositions pour concevoir une “récompense de non-ambiguïté” (Unambiguity Reward).
    • Combinaison avec des métriques automatiques (comme CIDEr) pour optimiser davantage les résultats générés.
  • Paramètres expérimentaux : Le taux d’apprentissage est réduit à 1e-6, la taille de lot est de 4, entraînement sur 20k itérations.
Étape 3 : Introduction de la supervision de génération
  • Objet d’étude : Données de segmentation d’instances MS-COCO non annotées (environ 87k images).
  • Méthode de traitement :
    • Utilisation de la tête de génération indiquée pour générer automatiquement des expressions pseudo (Pseudo Expressions), élargissant ainsi les données d’entraînement pour la tâche RES.
    • Application de stratégies de filtrage par zone (Area-based Filtering) et de repondération des données (Data Reweighting) pour réduire le bruit.
    • Combinaison des expressions pseudo avec des données annotées réelles pour réentraîner l’ensemble du cadre.
  • Paramètres expérimentaux : Identiques à l’étape 1.

3. Nouvelles méthodes et algorithmes

  • Module indicateur (Indicator Module) : Attribue des indicateurs positifs/négatifs (Positive/Negative Indicator) à chaque objet candidat pour guider le processus de génération linguistique, assurant que les expressions générées distinguent l’objet cible du fond.
  • Supervision de désambiguïsation : Conception d’une fonction de récompense basée sur les scores de correspondance fournis par la tête de sélection de propositions pour améliorer la non-ambiguïté des expressions générées.
  • Supervision de génération : Extension de la taille des données pour la tâche RES par la génération automatique d’expressions pseudo, tout en adoptant des stratégies de filtrage et de repondération pour améliorer la qualité des données.

b) Résultats principaux

1. Effets de la supervision de désambiguïsation

  • Sur l’ensemble de test RefCOCO+, la supervision de désambiguïsation a considérablement augmenté le score CIDEr (de 0.879 à 0.927).
  • Les résultats de l’évaluation humaine montrent que les expressions générées par le modèle présentent une meilleure non-ambiguïté (Top-1 Accuracy passé de 55% à 61%).
  • L’analyse qualitative montre qu’après l’ajout de la supervision de désambiguïsation, les expressions générées sont plus détaillées et précises. Par exemple, “le deuxième ours en partant de la droite” localise mieux l’objet cible que “l’ours à droite”.

2. Effets de la supervision de génération

  • Sur l’ensemble de validation RefCOCO+, la supervision de génération a augmenté le score mIoU de 1.46% (de 66.21% à 67.80%).
  • Les stratégies de filtrage et de repondération ont considérablement réduit l’impact du bruit apporté par les expressions pseudo, particulièrement sur les ensembles de données plus difficiles (comme RefCOCO+).
  • La qualité des expressions pseudo est cruciale : l’utilisation simple de noms de catégories ou d’expressions générées par des modèles précoces ne permet pas d’améliorer les performances.

3. Comparaison globale des performances

  • Dans la tâche RES, la méthode proposée dans cet article surpasse les meilleures méthodes existantes (comme RefTR et CRIS) sur tous les ensembles de test, avec une amélioration moyenne de 5.97% en termes de mIoU.
  • Dans la tâche REG, cette méthode dépasse nettement les autres en termes de score CIDEr, en particulier sur l’ensemble de données RefCOCO+ TestB le plus difficile, où le score CIDEr passe de 0.860 à 0.927.

c) Conclusion et valeur de la recherche

Cette étude propose un cadre innovant de supervision mutuelle qui optimise conjointement les tâches RES et REG via la supervision de désambiguïsation et la supervision de génération. Ce cadre résout non seulement le problème du manque de données pour la tâche RES, mais améliore également considérablement la non-ambiguïté des expressions générées par REG. Les résultats de la recherche ont une grande valeur scientifique dans le domaine de l’interaction vision-langage, tout en offrant de vastes perspectives pour des applications pratiques telles que l’interaction robotique et la recherche d’images intelligente.


d) Points forts de la recherche

  1. Mécanisme de supervision mutuelle : Exploration systématique pour la première fois de la manière dont RES et REG peuvent se renforcer mutuellement dans un apprentissage conjoint.
  2. Module indicateur : Conception d’un nouveau module indicateur pour guider flexiblement le processus de génération linguistique.
  3. Supervision de génération : Extension de la taille des données pour la tâche RES via la génération automatique d’expressions pseudo, améliorant considérablement les performances du modèle.
  4. Progrès en performance : Établissement de nouveaux records de performance pour les tâches RES et REG sur plusieurs ensembles de données publics.

e) Autres informations utiles

  • Cette recherche a également validé la capacité de généralisation du cadre sur d’autres ensembles de données (comme PhraseCut et ReferItGame).
  • En termes de vitesse d’inférence, bien que la méthode soit top-down, le temps d’inférence du cadre proposé (261ms) est supérieur aux méthodes bottom-up, mais elle offre de meilleures performances dans des scénarios multi-requêtes.

Résumé

Cet article propose un cadre de supervision mutuelle basé sur Transformer qui résout avec succès les problèmes clés des tâches de segmentation et de génération d’expressions référentielles. Ses mécanismes de supervision innovants et ses stratégies efficaces d’extension des données fournissent de nouvelles idées pour la recherche dans le domaine de l’interaction vision-langage, tout en posant des bases solides pour des applications pratiques.