CSE-GResNet : Un réseau simple et hautement efficace pour la reconnaissance des expressions faciales

Un réseau efficace pour la reconnaissance des expressions faciales basé sur la convolution de Gabor : CSE-GResNet

Contexte académique

La reconnaissance des expressions faciales (Facial Expression Recognition, FER) est une direction de recherche importante dans le domaine de la vision par ordinateur, avec des applications variées dans les robots sociaux, les soins de santé, la psychologie sociale, le service à la clientèle et l’analyse psychologique. Les expressions faciales sont des signaux naturels et universels pour transmettre l’état émotionnel et les intentions humaines. Par conséquent, la reconnaissance précise des expressions faciales joue un rôle essentiel pour comprendre les émotions humaines. Cependant, la plupart des méthodes FER existantes se concentrent sur l’amélioration des performances du modèle tout en négligeant la consommation des ressources de calcul. Il reste un défi majeur de maintenir à la fois l’efficacité et les performances élevées sur des plateformes à ressources limitées.

Pour résoudre ce problème, cet article propose un réseau léger et efficace appelé CSE-GResNet (Channel Shift-Enhancement Gabor-ResNet), qui vise à capturer les caractéristiques visuelles clés des images faciales grâce à la convolution de Gabor (Gconv). En outre, il introduit des modules innovants tels que le module de décalage de canal (CS-Module) et le module d’amélioration de canal (CE-Module) pour renforcer les capacités expressives du modèle.

Source de l’article

Cet article a été rédigé par Jiang Shaoping, Xing Xiaofen, Xu Xiangmin, Wang Lin, Guo Kailing de l’Université de technologie de Chine du Sud, ainsi que Liu Fang de l’Université des finances du Guangdong. L’article a été publié dans la revue IEEE Transactions on Affective Computing, volume 18, numéro 9, en octobre 2023.

Processus de recherche

1. Problématique et objectifs

L’objectif principal de cette étude est de concevoir un modèle FER léger et efficace, capable de réduire la consommation des ressources de calcul et de mémoire tout en maintenant des performances élevées en termes de reconnaissance. À cette fin, les auteurs ont proposé CSE-GResNet, combinant la convolution de Gabor, le module de décalage de canal et le module d’amélioration de canal pour capturer les caractéristiques clés des images faciales.

2. Conception de l’architecture du réseau

Le cœur de CSE-GResNet repose sur une version améliorée de ResNet appelée GResNet, où l’opération de convolution traditionnelle est remplacée par une convolution de Gabor (Gconv). La convolution de Gabor intègre des filtres de Gabor dans les noyaux de convolution, renforçant ainsi la robustesse du modèle face aux changements d’échelle et de rotation tout en réduisant le nombre de paramètres. Plus précisément, chaque canal de sortie de la convolution de Gabor contient des caractéristiques issues de plusieurs filtres de Gabor orientés différemment, capturant ainsi davantage de détails.

Pour améliorer encore les capacités expressives du modèle, les auteurs ont proposé deux modules : - CS-Module : Facilite l’échange d’informations entre canaux adjacents en décalant certaines parties des canaux dans la dimension spatiale. Ce module a des paramètres figés, ce qui le rend extrêmement efficace pendant la rétropropagation. - CE-Module : Renforce les caractéristiques significatives en agrégeant les informations complémentaires des canaux adjacents via une convolution locale. Ce module présente également peu de paramètres et un coût de calcul faible, améliorant ainsi les performances globales du modèle.

3. Conception expérimentale et ensembles de données

Les auteurs ont mené des expériences approfondies sur trois ensembles de données publiques : RAF-DB, FER2013 et SFEW. Ces ensembles incluent des images d’expressions faciales capturées dans des conditions réelles, présentant des défis importants comme différentes postures de tête, variations d’éclairage et occultations.

  • RAF-DB : Contient 12 271 images d’entraînement et 3 068 images de test, annotées selon six expressions de base plus l’expression neutre.
  • FER2013 : Comprend 35 887 images en niveaux de gris, divisées en ensembles d’entraînement, de validation et de test.
  • SFEW : Extrait des images-clés de l’ensemble AFEW5.0, avec 958 images d’entraînement, 436 images de validation et 372 images de test.

4. Stratégies d’entraînement et augmentation des données

Pour renforcer la robustesse du modèle face aux changements de posture, les auteurs ont utilisé diverses techniques d’augmentation des données, notamment des recadrages aléatoires, des retournements horizontaux et des rotations aléatoires. De plus, le modèle a été pré-entraîné sur l’ensemble de données AffectNet avant d’être affiné sur les ensembles RAF-DB, FER2013 et SFEW. Pendant l’entraînement, un optimiseur SGD a été utilisé avec un taux d’apprentissage initial de 0,005, diminué exponentiellement après 30 époques.

Résultats principaux

1. Efficacité de GResNet

Les résultats expérimentaux montrent que GResNet, basé sur la convolution de Gabor, offre d’excellentes performances sur les trois ensembles de données. Comparé au ResNet traditionnel, GResNet améliore significativement la précision de reconnaissance tout en maintenant un nombre réduit de paramètres. Par exemple, sur l’ensemble RAF-DB, la précision de GResNet18 atteint 85,59 %, contre 85,33 % pour ResNet18.

2. Efficacité des modules CS et CE

L’introduction des modules de décalage de canal (CS-Module) et d’amélioration de canal (CE-Module) a encore amélioré les performances du modèle. Sur l’ensemble RAF-DB, CSE-GResNet atteint une précision de 89,02 %, surpassant nettement les méthodes de pointe actuelles. De plus, les coûts de calcul et de mémoire des modules CS et CE sont extrêmement faibles, permettant au modèle de fonctionner efficacement sur des plateformes à ressources limitées.

3. Comparaison avec d’autres méthodes

Comparé aux méthodes FER efficaces existantes, CSE-GResNet montre des avantages significatifs en termes de précision de reconnaissance et d’efficacité de calcul. Par exemple, sur l’ensemble FER2013, la précision de CSE-GResNet est de 74,15 %, tandis que celle de modèles efficaces comme EfficientFace est de 73,59 %. De plus, CSE-GResNet ne compte que 2,80 millions de paramètres, bien moins que d’autres modèles.

Conclusion et importance

Le CSE-GResNet proposé combine la convolution de Gabor, le module de décalage de canal et le module d’amélioration de canal pour améliorer considérablement les performances des modèles FER tout en maintenant une grande efficacité de calcul. Les résultats expérimentaux montrent que CSE-GResNet obtient d’excellentes précisions de reconnaissance sur plusieurs ensembles de données publics, avec des coûts de calcul et de mémoire très faibles, ce qui le rend adapté aux applications sur des plateformes à ressources limitées.

Points forts de la recherche

  1. Efficacité et légèreté : CSE-GResNet réduit considérablement le nombre de paramètres et les coûts de calcul tout en restant performant.
  2. Conception innovante des modules : L’introduction des modules de décalage et d’amélioration de canal améliore les capacités expressives du modèle.
  3. Validation expérimentale approfondie : Des expériences étendues sur plusieurs ensembles de données prouvent la supériorité et la robustesse du modèle.

Autres informations utiles

Cet article discute également en détail de l’impact des paramètres d’orientation (u) et d’échelle (v) dans la convolution de Gabor sur les performances du modèle, validant les paramètres optimaux par des expériences. De plus, les auteurs explorent les stratégies de fusion des modules de décalage et d’amélioration de canal, proposant trois approches différentes dont l’efficacité a été validée expérimentalement.

Conclusion

Le CSE-GResNet apporte une nouvelle solution pour la reconnaissance efficace des expressions faciales, offrant non seulement une valeur théorique importante, mais aussi des perspectives d’application étendues. Les recherches futures pourraient explorer l’applicabilité de ce modèle à d’autres tâches de vision par ordinateur, telles que la reconnaissance faciale et l’analyse des émotions.