Apprentissage et régularisation de la représentation découplée par contraste pour la manipulation des expressions faciales préservant la parole
Apprentissage par Représentation Découplée Contrastive pour la Manipulation des Expressions Faciales en Préservant la Voix
Introduction
Ces dernières années, avec le développement rapide de la réalité virtuelle, de la production cinématographique et des technologies d’interaction homme-machine, la manipulation des expressions faciales est devenue un sujet de recherche important dans les domaines de la vision par ordinateur et de la graphique. Parmi ces recherches, la manipulation des expressions faciales tout en préservant la voix (Speech-Preserving Facial Expression Manipulation, SPFEM) vise à modifier l’émotion affichée tout en maintenant la synchronisation entre les mouvements des lèvres et le contenu vocal. Cette technologie peut non seulement améliorer l’expressivité humaine, mais aussi fournir un soutien essentiel aux applications pratiques telles que la génération d’avatars virtuels et la post-production de films.
Cependant, la réalisation du SPFEM présente plusieurs défis. Premièrement, les informations vocales et émotionnelles sont fortement imbriquées dans les conversations naturelles, rendant difficile leur séparation efficace à partir des vidéos sources ou de référence. Deuxièmement, les méthodes existantes reposent souvent sur des signaux de supervision simples (comme des images de référence ou des paramètres de modèles 3D du visage), qui peuvent contenir des biais affectant la qualité et la précision des résultats générés. Par conséquent, concevoir un algorithme capable de manipuler les émotions tout en préservant la synchronisation audio-labiale devient une question cruciale à résoudre.
Pour répondre à ces problèmes, Tianshui Chen et al. ont proposé un algorithme innovant appelé Apprentissage par Représentation Découplée Contrastive (Contrastive Decoupled Representation Learning, CDRL), qui apprend des représentations indépendantes du contenu et des émotions afin de fournir des signaux de supervision plus directs et précis pour le SPFEM.
Source de l’article
Cet article a été co-rédigé par Tianshui Chen et Jianman Lin comme premiers auteurs, avec Zhijing Yang comme correspondant principal. Les auteurs proviennent de l’Université de Technologie de Guangdong, de l’Université de Technologie du Sud de Chine et de l’Université Sun Yat-sen. L’article a été publié dans la revue internationale de renom International Journal of Computer Vision (IJCV) et a été officiellement accepté en janvier 2025. Le titre de l’article est “Contrastive Decoupled Representation Learning and Regularization for Speech-Preserving Facial Expression Manipulation”.
Détails de la recherche
a) Processus de recherche
Le cœur de cette étude réside dans la conception et la mise en œuvre d’un nouvel algorithme CDRL, divisé en deux modules principaux : l’apprentissage par représentation de contenu contrastif (Contrastive Content Representation Learning, CCRL) et l’apprentissage par représentation émotionnelle contrastive (Contrastive Emotion Representation Learning, CERL). Voici les détails du processus de recherche :
1. Préparation des données
La recherche s’appuie sur le jeu de données MEAD (Multilingual Emotional Audio-Visual Dataset) pour l’entraînement et la validation. MEAD contient des vidéos de 60 locuteurs, chacun ayant enregistré 30 vidéos dans sept états émotionnels différents. Pour construire des paires de données, les auteurs ont utilisé l’algorithme Dynamic Time Warping (DTW) pour aligner deux vidéos contenant le même contenu vocal mais exprimant différentes émotions, permettant ainsi d’obtenir des échantillons d’entraînement un-à-un.
2. Apprentissage par représentation de contenu contrastif (CCRL)
- Objectif : Apprendre une représentation contenant uniquement les informations vocales, en excluant les interférences émotionnelles.
- Méthode :
- Utiliser l’audio comme information préalable pour extraire les caractéristiques du contenu des images sources via un mécanisme d’attention croisée (Cross-Attention Mechanism).
- Introduire une fonction de perte contrastive sensible aux émotions (Emotion-Aware Contrastive Loss), maximisant la similarité entre les échantillons positifs (même contenu vocal mais émotions différentes) et minimisant celle entre les échantillons négatifs (différents contenus vocaux mais mêmes émotions).
- L’extraction des caractéristiques audio utilise le modèle XLSR pré-entraîné, tandis que l’extraction des caractéristiques d’image combine ArcFace et une opération de mappage.
- Paramètres expérimentaux : L’entraînement a été réalisé sur une carte graphique GeForce RTX 4090, avec l’optimiseur Adam, un taux d’apprentissage initial de 0,0001, et une durée totale de 10 époques.
3. Apprentissage par représentation émotionnelle contrastive (CERL)
- Objectif : Apprendre une représentation contenant uniquement les informations émotionnelles, en excluant les interférences liées au contenu vocal.
- Méthode :
- Utiliser un modèle pré-entraîné de vision-langage (comme CLIP) et la technique de réglage de prompt (Prompt Tuning) pour extraire des informations préalables émotionnelles.
- Introduire une fonction de perte contrastive augmentée par les émotions (Emotion-Augmented Contrastive Loss), en sélectionnant des images avec une clarté émotionnelle élevée comme échantillons d’entraînement.
- Fusionner les informations préalables émotionnelles avec les caractéristiques d’image via une opération de produit scalaire pour obtenir la représentation émotionnelle.
- Paramètres expérimentaux : Pendant l’entraînement, seuls les vecteurs de prompt ( t_i ) sont mis à jour, les autres paramètres restant fixes. L’optimiseur est SGD, avec un taux d’apprentissage initial de 0,1, diminué aux cycles 2, 4 et 6.
4. Entraînement du modèle SPFEM
- Pendant l’entraînement du modèle SPFEM, les représentations de contenu et d’émotions fournies par CDRL sont utilisées comme signaux de supervision supplémentaires.
- La représentation de contenu contraint la cohérence entre l’image générée et l’entrée source, tandis que la représentation émotionnelle contraint la cohérence entre l’image générée et l’entrée de référence.
b) Résultats principaux
1. Comparaisons quantitatives
Des évaluations quantitatives approfondies ont été réalisées sur les jeux de données MEAD et RAVDESS, en utilisant trois indicateurs pour mesurer la qualité des résultats générés : - FAD (Fréchet ArcFace Distance) : Mesure la fidélité des images générées ; plus bas est meilleur. - CSIM (Cosine Similarity) : Évalue la similarité émotionnelle entre l’image générée et l’image de référence ; plus haut est meilleur. - LSE-D (Lip Sync Error Distance) : Mesure la synchronisation labiale avec la voix ; plus bas est meilleur.
Les résultats montrent que, dans le cadre des tests inter-identités (Cross-ID) sur MEAD, l’algorithme CDRL améliore significativement tous les indicateurs. Par exemple, lorsqu’il est appliqué au modèle NED de base, le FAD moyen passe de 4,448 à 4,344, le LSE-D de 9,906 à 9,351, et le CSIM augmente de 0,773 à 0,792. De manière similaire, sur RAVDESS, CDRL montre également des améliorations constantes.
2. Comparaisons qualitatives
Une analyse qualitative confirme également l’efficacité de CDRL. Par exemple, le modèle NED de base présente souvent des distorsions dans la forme des lèvres pendant la manipulation émotionnelle, alors qu’en intégrant CDRL, les images générées conservent mieux la synchronisation labiale tout en transférant précisément les émotions.
3. Étude utilisateur
Une enquête auprès des utilisateurs a également été menée, avec 25 participants évaluant la fidélité, la similarité émotionnelle et la synchronisation labiale des résultats générés. Les résultats montrent que CDRL surpasse significativement les modèles de base sur tous les indicateurs. Par exemple, sur MEAD, CDRL a augmenté les scores de fidélité de 40 %, de similarité émotionnelle de 38 % et de synchronisation labiale de 48 %.
c) Conclusion et importance
L’algorithme CDRL proposé dans cette étude offre une solution nouvelle et efficace pour SPFEM. En apprenant des représentations indépendantes du contenu et des émotions, CDRL permet non seulement de manipuler les émotions avec précision, mais aussi de conserver efficacement la synchronisation audio-labiale. De plus, CDRL montre une bonne capacité de généralisation, obtenant des performances exceptionnelles même sur de nouveaux jeux de données (comme RAVDESS) sans réentraînement.
Cette recherche présente une valeur scientifique importante et des perspectives d’application prometteuses. D’une part, elle propose une nouvelle approche pour l’apprentissage par représentation découplée, applicable dans le traitement multimodal des données ; d’autre part, elle fournit un support technique pour des applications pratiques telles que la génération d’avatars virtuels et la post-production cinématographique.
d) Points forts de la recherche
- Conception algorithmique innovante : Premier algorithme proposant CDRL, avec des modules CCRL et CERL pour apprendre respectivement les représentations de contenu et d’émotions.
- Application de l’apprentissage contrastif : Réussite dans le découplage des informations de contenu et d’émotions grâce à un cadre d’apprentissage contrastif.
- Fusion des données multimodales : Combinaison des données audio et image, tirant parti des avantages des informations multimodales.
- Validation par étude utilisateur : Évaluation complète de la qualité des résultats générés grâce à une enquête à grande échelle auprès des utilisateurs.
e) Autres informations utiles
L’équipe de recherche a également exploré les limites de CDRL, notamment son incapacité à transférer parfaitement certains détails comme les dents dans certains cas. Les travaux futurs prévoient d’améliorer la capacité de généralisation de l’algorithme via l’entraînement adversarial.
Conclusion
Cet article résout le problème de longue date du découplage des informations de contenu et d’émotions dans SPFEM grâce à l’algorithme CDRL. Sa méthodologie innovante, sa rigueur expérimentale et ses performances exceptionnelles en font une étape importante dans ce domaine.