Représentation du mouvement structurel régional 3D du visage à l'aide de réseaux de nuages de points légers pour la reconnaissance des micro-expressions
Représentation du mouvement structurel régional 3D basée sur des réseaux de point cloud légers pour la reconnaissance des micro-expressions
Contexte académique
Les micro-expressions (Micro-expressions, MEs) sont une forme brève et subtile d’expression faciale humaine, généralement durant entre 1⁄25 et 1⁄5 de seconde. En raison de leur caractère spontané, rapide et difficile à contrôler, les micro-expressions peuvent souvent révéler les véritables émotions d’un individu, ce qui leur confère une grande valeur dans des domaines tels que l’interaction homme-machine (Human-Computer Interaction, HCI), la psychologie, l’analyse criminelle et les négociations commerciales. Cependant, la faible intensité et la brièveté des micro-expressions rendent leur reconnaissance extrêmement difficile. Les méthodes traditionnelles de reconnaissance des micro-expressions reposent principalement sur l’extraction des caractéristiques de mouvement à partir d’images RGB 2D, négligeant le rôle clé de la structure faciale et de ses mouvements dans la transmission des émotions. Pour surmonter cette limitation, cet article propose une méthode innovante de représentation du mouvement facial 3D qui intègre la structure faciale 3D, ainsi que les caractéristiques régionalisées RGB et structurelles du mouvement, afin de capturer plus précisément les variations subtiles des dynamiques faciales.
Origine de l’article
Cet article a été co-rédigé par Ren Zhang, Jianqin Yin, Chao Qi, Yonghao Dang, Zehao Wang, Zhicheng Zhang et Huaping Liu, issus de l’École d’ingénierie intelligente et d’automatisation de l’Université des Postes et Télécommunications de Pékin et du Département de technologie informatique de l’Université Tsinghua. L’article a été accepté par IEEE Transactions on Affective Computing et sera publié officiellement en 2025.
Processus de recherche et méthodes expérimentales
1. Représentation du mouvement spatio-temporel facial 3D
L’étude commence par extraire des séquences vidéo du jeu de données CAS(ME)3, y compris les cartes de profondeur et les images RGB correspondantes. À partir des cartes de profondeur, un nuage de points 3D est généré, combiné avec les informations de flux optique (optical flow) des images RGB pour capturer les variations spatio-temporelles des pixels du visage. Les étapes spécifiques sont les suivantes : - Conversion des cartes de profondeur en nuages de points 3D : Utilisation des paramètres intrinsèques de la caméra (tels que la distance focale et les coordonnées du point principal) pour mapper les pixels des cartes de profondeur vers l’espace 3D, générant ainsi des nuages de points colorés. - Combinaison du flux optique et du mouvement structurel : Calcul du flux optique et des variations de profondeur entre l’image initiale (onset frame) et l’image de pic (apex frame) pour obtenir les informations de mouvement de chaque point dans les directions x, y et z.
2. Segmentation des régions sémantiques du visage
Pour capturer plus précisément les expressions émotionnelles des différentes parties du visage, l’étude divise le visage en huit régions sémantiques, incluant les sourcils gauche et droit, les joues, la mâchoire, la bouche et le menton. Grâce aux 68 points clés du visage détectés par l’algorithme dlib, les frontières de chaque région sont définies, et les caractéristiques de mouvement sont extraites des nuages de points.
3. Réseau de convolution graphique basé sur des nuages de points légers (Lite-Point-GCN)
Pour faire face au problème du nombre limité d’échantillons de micro-expressions, l’étude propose un réseau de convolution graphique basé sur des nuages de points légers (Lite-Point-GCN). Ce réseau extrait les caractéristiques et modélise en deux étapes : - Extraction des caractéristiques locales du mouvement régional : Utilisation d’un réseau PointNet++ léger pour extraire les caractéristiques locales de chaque région sémantique, combinant les informations spatiales et de mouvement. - Apprentissage des relations des caractéristiques globales du mouvement : Modélisation des interactions entre les différentes régions du visage via un réseau de convolution graphique (GCN), capturant les associations entre les catégories émotionnelles et les caractéristiques du mouvement.
4. Expériences et évaluation
L’étude a mené des expériences approfondies sur le jeu de données CAS(ME)3, utilisant la méthode de validation croisée Leave-One-Subject-Out (LOSO) pour évaluer l’efficacité de la méthode proposée. Les résultats expérimentaux montrent que la méthode de représentation du mouvement facial 3D, combinant les informations de profondeur, surpasse nettement les méthodes les plus avancées actuelles dans la tâche de reconnaissance des micro-expressions.
Résultats principaux
- Supériorité de la représentation du mouvement 3D : La méthode de représentation du mouvement facial 3D, combinant le flux optique et les informations de profondeur, peut capturer plus précisément les variations dynamiques du visage, montrant une robustesse accrue face aux changements d’éclairage et de posture.
- Efficacité de la segmentation des régions sémantiques : La division du visage en huit régions sémantiques et l’extraction des caractéristiques de mouvement de chaque région ont significativement amélioré la précision et la robustesse de la reconnaissance des micro-expressions.
- Performance de Lite-Point-GCN : Le réseau de convolution graphique basé sur des nuages de points légers (Lite-Point-GCN) s’est montré performant dans la modélisation des caractéristiques locales et globales, réduisant efficacement le risque de surapprentissage et obtenant d’excellentes performances de reconnaissance sur le jeu de données CAS(ME)3.
Conclusion et signification
Cette étude propose une méthode innovante de représentation du mouvement facial 3D, combinant des informations de profondeur et un réseau de convolution graphique basé sur des nuages de points légers, améliorant considérablement la précision et la robustesse de la reconnaissance des micro-expressions. Cette méthode présente une grande valeur dans des domaines tels que l’interaction homme-machine et la psychologie, tout en offrant de nouvelles perspectives et approches pour les futures recherches sur la reconnaissance des micro-expressions.
Points forts de la recherche
- Représentation innovante du mouvement facial 3D : Première intégration des informations de profondeur avec le flux optique, proposant une méthode de représentation du mouvement facial plus complète.
- Réseau de convolution graphique basé sur des nuages de points légers : Le réseau Lite-Point-GCN conçu se montre performant même avec un nombre limité d’échantillons, réduisant efficacement le risque de surapprentissage.
- Segmentation des régions sémantiques : En divisant le visage en huit régions sémantiques, les expressions émotionnelles des différentes zones sont capturées avec précision.
Autres informations intéressantes
L’étude explore également la question du choix du modèle global, comparant les performances du GCN et du Transformer dans la tâche de reconnaissance des micro-expressions. Les résultats expérimentaux montrent que le GCN présente un avantage significatif dans la modélisation globale, capable de capturer plus précisément les relations complexes entre les différentes régions du visage. Les recherches futures exploreront davantage la validation de l’efficacité et de la généralisation de cette méthode sur des jeux de données plus larges et diversifiés.