Enregistrement des micro-expressions faciales dynamiques avec un réseau d'appareils photo multi-focus

Capture haute résolution des micro-expressions faciales dynamiques : une révolution avec l’array de caméras multi-focales

Contexte et problème de recherche

Dans les domaines de la biomédecine, la reconnaissance des émotions, le diagnostic des maladies, l’évaluation des résultats chirurgicaux, la création de prothèses faciales et les études des caractéristiques génétiques, la capture d’images dynamiques de haute qualité du visage humain est d’une importance cruciale. Les expressions faciales humaines, en particulier les micro-expressions, peuvent fournir une riche quantité d’informations biomédicales. Par exemple, les recherches montrent que la capture de micro-expressions faciales dynamiques en haute résolution peut améliorer la précision de l’informatique affective, diagnostiquer certaines maladies, évaluer les effets chirurgicaux et générer des prothèses faciales de haute précision. Dans ce contexte d’applications, la capture détaillée et haute définition des surfaces courbées du visage est devenue un défi majeur pour la communauté scientifique.

Les systèmes d’imagerie traditionnels à caméra unique sont limités par des compromis fondamentaux entre profondeur de champ (DOF, Depth of Field), champ de vision (FOV, Field of View) et résolution. Par exemple, les ensembles de données populaires tels que le BP4D-SPONTANEOUS publié en 2014 et le SAMM (Spontaneous Micro-Facial Movement Dataset) sont limités en termes de résolution et de profondeur de champ, ce qui ne permet pas de répondre aux besoins de capture plus détaillée des expressions faciales.

Pour surmonter cette contrainte technologique, une équipe de chercheurs de Duke University et de Ramona Optics Inc. a proposé un système révolutionnaire de microscope à réseau de caméras multiples (Multi-Camera Array Microscope, MCAM). En utilisant une stratégie multi-focale, ce dispositif résout simultanément les défis de résolution élevée et de grande profondeur de champ dans l’imagerie de surfaces courbées.

Origine de l’étude et informations sur la publication

Cette étude a été menée par Lucas Kreiss et Weiheng Tang, en collaboration avec des chercheurs tels que Ramana Balla, Xi Yang et Amey Chaware. Elle est le fruit d’une coopération entre Duke University et Ramona Optics Inc. L’article a été publié le 1er février 2025 dans le volume 16, numéro 2 du journal Biomedical Optics Express. Les principaux résultats de l’étude sont accessibles via le lien doi suivant : https://doi.org/10.1364/boe.547944.

Processus de recherche et méthode expérimentale

Cette étude repose sur un design méthodologique structuré en plusieurs étapes pour démontrer les avantages du système multi-focal dans la capture d’images faciales dynamiques en haute résolution. Le processus de recherche s’articule autour de quatre étapes clés : configuration du système, caractérisation des performances, capture d’images faciales, et enregistrement d’expressions dynamiques.

1. Conception du système et configuration multi-focale

Les chercheurs ont utilisé un réseau compact de 54 caméras organisées en une grille de 9×6. Chaque caméra est équipée d’un objectif avec une distance focale de 25,05 mm, une ouverture numérique (NA) de 0,04 et un capteur CMOS de 13 mégapixels (Onsemi AR1335) avec une largeur de pixel de 1,1 µm. Les caméras sont fixées sur une carte PCB avec un espacement de 13,5 mm entre elles.

Pour réaliser l’imagerie multi-focale, l’équipe de recherche a utilisé un modèle facial en polystyrène reproduisant fidèlement la morphologie humaine. À l’aide d’un pied à coulisse numérique, la profondeur de chaque point du modèle (allant de 0 à 40 mm) a été mesurée, et les plans focaux des caméras ont été ajustés en conséquence pour former une “courbe de profondeur multi-focale”. Par exemple, une plage de distance de travail de 200 mm à 240 mm a été utilisée pour régler la mise au point, et un échantillon de référence à haute résolution a été employé à des fins de calibration.

Pour fusionner les images, l’algorithme Hugin a été utilisé. Les paramètres de fusion ont d’abord été ajustés sur les images focalisées de l’échantillon de calibrage, avant d’être appliqués aux images faciales pour générer des images panoramiques haute résolution.

2. Caractérisation des performances du système multi-focal

Pour évaluer et caractériser les performances optiques du système, les chercheurs ont utilisé une cible de résolution combinée à une scène de translation de haute précision (précision de déplacement de 0,01 mm). Ils ont déterminé la résolution, la profondeur de champ et l’extension de la profondeur de champ (eDOF, Extended Depth of Field) pour chaque caméra.

Tout d’abord, un empilement axial (focal stack) d’images a été collecté pour chaque caméra, et un “indice de netteté” a été calculé à chaque plan focal. La largeur à mi-hauteur (FWHM, Full Width at Half Maximum) du profil de netteté a été utilisée pour estimer la profondeur de champ. Ensuite, la résolution latérale a été quantifiée à partir de la fonction de diffusion des bords (ESF, Edge Spread Function) et de la fonction de transfert de modulation (MTF, Modulation Transfer Function). Les expériences ont révélé une résolution latérale moyenne d’environ ∼26,14 µm ± 5,8 µm. Par ailleurs, la configuration multi-focale a permis d’obtenir une extension de profondeur de champ de 43 mm, soit une augmentation de 10 fois par rapport à une configuration mono-focale traditionnelle.

3. Acquisition d’images faciales et capture dynamique

Un environnement expérimental avec trois sources lumineuses LED annulaires a été mis en place pour capturer des images faciales réalistes. Les sources lumineuses ont été positionnées devant le visage ainsi que sur ses côtés gauche et droit. Les sujets ont maintenu leur tête immobile grâce à un repose-menton, et un miroir à 45° a permis de capturer les images faciales. Les résultats ont confirmé que le système pouvait fournir des images nettes de la totalité du visage, avec des résolutions dépassant 13 000×9 000 pixels.

Par ailleurs, le système a permis d’enregistrer des expressions faciales dynamiques à une vitesse de 12 images par seconde (fps). Ces expériences démontrent la performance du système dans la capture de micro-expressions détaillées et dans le traitement efficace des images par algorithmes de fusion.

Résultats et conclusions

Principaux résultats

  • Chaque caméra individuelle a une profondeur de champ mesurée à environ ∼4,7 mm. En configuration multi-focale, le système atteint une extension de profondeur de champ de 43 mm.
  • Les images fusionnées présentent une résolution impressionnante de ∼13 394 x 9 062 pixels, avec une résolution latérale de ∼26 µm.
  • La capture dynamique montre avec succès des détails tels que les rides, les pores et d’autres micro-caractéristiques du visage.

Conclusion

Cette étude a introduit une conception innovante de système d’imagerie, capable de surmonter les compromis traditionnels entre profondeur de champ et résolution dans des systèmes à lentille unique pour des surfaces courbées comme le visage. Le système atteint simultanément une haute résolution, une grande profondeur de champ, et la capture d’expressions dynamiques en haute définition. Ces capacités ouvrent des perspectives considérables pour de nombreuses applications biomédicales, notamment en diagnostic clinique, en chirurgie plastique et en reconnaissance faciale avancée.

Points forts de l’étude

  • Innovation technologique majeure : Première solution multi-caméras adressant le défi de l’imagerie de surfaces courbées.
  • Combinaison résolution élevée et profondeur de champ étendue : Une amélioration de 50 fois par rapport aux ensembles de données publics existants.
  • Large éventail d’applications : Promesses particulières pour le diagnostic biomédical, la réalité virtuelle, l’informatique affective et les systèmes de sécurité.

Perspectives de recherche et potentiel d’application

Les chercheurs prévoient d’intégrer des lentilles à focus réglable et des algorithmes de compensation de mouvement en temps réel, afin d’améliorer encore davantage les capacités d’adaptation et de robustesse du système. En outre, des améliorations en termes d’uniformité de l’éclairage et de calibration de grossissement pourront permettre au système MCAM de fonctionner dans des environnements plus complexes.

Cette étude, en révolutionnant les méthodes d’imagerie faciale haute résolution, promet des avancées technologiques importantes et des bénéfices pratiques significatifs pour la recherche scientifique et les applications industrielles.