Apprentissage de la représentation faciale cohésive et consciente de la posture par apprentissage contrastif

Améliorer la perception des poses dans l’apprentissage autodidacte de représentations faciales

Contexte de recherche et problématique

Dans le domaine de la vision par ordinateur, l’apprentissage des représentations faciales (Facial Representation Learning) est une tâche importante. En analysant les images faciales, nous pouvons extraire des informations sur l’identité, les émotions et les postures, ce qui soutient diverses tâches en aval telles que la reconnaissance des expressions faciales (FER), la reconnaissance faciale (FR) et l’estimation de la pose de la tête (HPE). Récemment, les réseaux neuronaux convolutionnels profonds (DCNNs) ont obtenu des résultats significatifs dans les tâches de compréhension faciale. Cependant, ces méthodes dépendent généralement de grands ensembles de données annotés pour l’apprentissage supervisé, ce qui nécessite un coût important en annotation manuelle et peut ne pas bien se généraliser à d’autres ensembles de données.

Pour surmonter cette limitation, l’apprentissage autodidacte (Self-Supervised Learning, SSL) est progressivement devenu une alternative prometteuse. En particulier, les méthodes basées sur l’apprentissage contrastif (Contrastive Learning, CL) apprennent des représentations visuelles significatives sans dépendre d’annotations explicites en construisant des paires positives et négatives. Cependant, malgré leurs bonnes performances sur des données non étiquetées, ces méthodes restent insuffisantes dans la gestion des variations de pose faciale. Plus précisément, les méthodes CL traditionnelles tendent à apprendre des caractéristiques insensibles aux poses, ce qui peut entraîner la perte de certains détails utiles liés aux poses. De plus, les choix inappropriés des paires positives et négatives peuvent introduire des paires faussement négatives (False-Negative Pairs), affectant ainsi l’apprentissage du modèle.

Pour résoudre ces problèmes, les auteurs de cet article proposent un nouveau cadre appelé Pose-Disentangled Contrastive Facial Representation Learning (PCFRL), visant à améliorer la perception des poses dans l’apprentissage autodidacte des représentations faciales tout en optimisant les stratégies de calibration des échantillons pour l’apprentissage contrastif.


Origine de l’article

Cet article a été rédigé par Yuanyuan Liu, Shaoze Feng, Zhe Chen et al., issus de l’Université des Sciences Géologiques de Chine (Wuhan), Yunnan United Vision Technology Co., Ltd., l’Université de Yunnan, ainsi que de l’Université La Trobe (Australie). Il a été publié dans International Journal of Computer Vision (IJCV), reçu le 29 mars 2024 et accepté le 6 janvier 2025, avec le DOI 10.1007/s11263-025-02348-z.


Contenu et méthodologie de la recherche

a) Processus et méthodes de recherche

Le flux de travail de cette recherche est divisé en trois parties principales : désenchevêtrement des caractéristiques (Feature Disentanglement), calibration des paires faussement négatives (False-Negative Pair Calibration) et conception de nouvelles fonctions de perte d’apprentissage contrastif (Calibrated Contrastive Learning Losses).

1. Désenchevêtrement des caractéristiques

Les auteurs proposent d’abord un module appelé Pose-Decoupling Decoder (PDD) pour séparer les caractéristiques liées à la pose (Pose-Aware Features) des caractéristiques faciales non liées à la pose (Non-Pose Face-Aware Features). Le PDD réalise le désenchevêtrement via des contraintes de reconstruction, garantissant qu’une même image faciale sous différentes poses peut être reconstruite à partir des nouvelles caractéristiques de pose et des caractéristiques faciales originales non liées à la pose. Mathématiquement, le processus de désenchevêtrement est réalisé grâce aux fonctions de perte suivantes : - Perte de reconstruction ((L_{dis})) : mesure la différence entre l’image originale et sa version reconstruite. - Perte d’orthogonalité ((L_{orth})) : assure que les deux types de caractéristiques désenchevêtrées sont orthogonales pour réduire les informations redondantes.

2. Calibration des paires faussement négatives

Après le désenchevêtrement des caractéristiques, les auteurs observent que l’utilisation directe des méthodes CL traditionnelles peut entraîner des problèmes de paires faussement négatives. Par exemple, deux images ayant la même pose mais appartenant à des individus différents peuvent être incorrectement sélectionnées comme paires négatives. Pour résoudre ce problème, ils proposent une méthode basée sur l’alignement cohésif de voisinage (Neighborhood-Cohesive Pair Alignment, NPA) pour identifier et calibrer les paires faussement négatives. La méthode NPA combine la similarité cosinus (Cosine Similarity) et un score de cohérence des échantillons voisins (Neighborhood Sample Consistency Score) et ajuste dynamiquement la calibration des paires faussement négatives via un mécanisme de seuil.

3. Conception de nouvelles fonctions de perte d’apprentissage contrastif

Pour optimiser davantage l’apprentissage des paires calibrées, les auteurs ont conçu deux nouvelles fonctions de perte d’apprentissage contrastif : - Perte contrastive calibrée pour les caractéristiques liées à la pose ((L’_p)) - Perte contrastive calibrée pour les caractéristiques faciales non liées à la pose ((L’_f))

Ces deux fonctions de perte optimisent dynamiquement les paires calibrées via une stratégie de pondération adaptative, améliorant ainsi la robustesse et la généralisation du modèle.


b) Résultats principaux

1. Efficacité du désenchevêtrement des caractéristiques

Les expériences montrent que le module PDD peut efficacement séparer les caractéristiques liées à la pose des caractéristiques faciales non liées à la pose. À travers une visualisation t-SNE, les auteurs montrent que les caractéristiques apprises par PCFRL sont plus discriminantes que celles de leur version précédente (PCL).

2. Efficacité de la calibration des paires faussement négatives

Grâce à la méthode NPA, les auteurs identifient et calibrent avec succès un grand nombre de paires faussement négatives. Comparée aux méthodes basées uniquement sur la similarité cosinus, la méthode NPA présente des avantages significatifs dans la calibration des paires faussement négatives liées à la pose et non liées à la pose.

3. Amélioration des performances des tâches en aval

Dans quatre tâches en aval (FER, FR, détection des unités d’action faciales, HPE), PCFRL surpasse les méthodes de pointe existantes. Par exemple, dans la tâche FER sur le jeu de données RAF-DB, PCFRL atteint une précision de 75,68 %, soit une augmentation de 1,21 % par rapport à PCL ; dans la tâche FR sur le jeu de données CPLFW, PCFRL atteint une précision de 66,17 %, soit une augmentation de 2,41 % par rapport à PCL.


Conclusion et valeur scientifique

c) Conclusion et signification de la recherche

Le cadre PCFRL proposé dans cet article améliore considérablement les performances de l’apprentissage autodidacte des représentations faciales grâce au désenchevêtrement des caractéristiques, à la calibration des paires faussement négatives et à la conception de nouvelles fonctions de perte d’apprentissage contrastif. Les résultats montrent que l’amélioration de la perception des poses est cruciale pour un apprentissage robuste des représentations faciales.

D’un point de vue scientifique, PCFRL propose une nouvelle approche pour résoudre le problème des paires faussement négatives dans l’apprentissage autodidacte et valide l’efficacité de la méthode NPA. D’un point de vue applicatif, ce cadre offre des performances exceptionnelles dans diverses tâches liées au visage, fournissant ainsi un support technique pour des applications pratiques telles que la surveillance intelligente et l’interaction homme-machine.


d) Points forts de la recherche

  1. Processus innovant : PCFRL combine pour la première fois le désenchevêtrement des caractéristiques et la calibration des paires faussement négatives, résolvant ainsi les insuffisances des méthodes CL traditionnelles en matière de perception des poses.
  2. Méthode NPA novatrice : En prenant en compte les relations entre les échantillons voisins, la méthode NPA permet d’identifier plus précisément les paires faussement négatives.
  3. Amélioration des pertes contrastives : La stratégie de pondération adaptative permet au modèle d’optimiser plus efficacement les paires calibrées.

Résumé

Cet article, proposé par Yuanyuan Liu et al., présente un nouveau cadre d’apprentissage autodidacte des représentations faciales appelé PCFRL, visant à améliorer l’apprentissage des représentations faciales en renforçant la perception des poses. Cette recherche résout non seulement le problème des paires faussement négatives dans les méthodes CL traditionnelles, mais fournit également une référence importante pour l’application de l’apprentissage autodidacte dans les tâches liées au visage. À l’avenir, les auteurs prévoient d’explorer davantage comment utiliser des connaissances a priori physiques pour traiter les bruits complexes et améliorer encore la robustesse du modèle.