Estimation de la fréquence cardiaque et respiratoire par modélisation spatio-temporelle avant-arrière à partir de vidéos
Une nouvelle méthode d’estimation du rythme cardiaque et respiratoire à partir de vidéos
Contexte et objectifs de la recherche
La fréquence cardiaque (Heart Rate, HR) et la fréquence respiratoire (Respiratory Rate, RR) sont des indicateurs physiologiques essentiels reflétant la fonction cardiorespiratoire. Ils sont largement utilisés dans les domaines de la médecine, de la surveillance de la santé, ainsi que dans les recherches en psychologie et en comportement humain. Traditionnellement, ces paramètres sont mesurés à l’aide de capteurs corporels, tels que l’électrocardiographie (ECG) ou la photopléthysmographie (PPG) pour la HR, et des ceintures respiratoires ou des dispositifs de mesure du débit d’air pour la RR. Cependant, ces méthodes de contact présentent des limites dans les applications en vie quotidienne, telles que l’inconfort des dispositifs portés, les irritations de la peau et leur inadaptation à certains contextes, comme la surveillance à distance.
Ces dernières années, les méthodes sans contact basées sur des vidéos attirent l’attention des chercheurs. Ces méthodes permettent d’estimer la HR et la RR à travers l’analyse des variations subtiles de la couleur de la peau ou des mouvements corporels. Cependant, les méthodes existantes sont limitées par leur faible robustesse face aux variations d’éclairage environnemental, ce qui réduit leur précision et leur fiabilité en conditions réelles. Pour relever ce défi, les auteurs de cette étude ont proposé une méthode innovante de modélisation spatio-temporelle avant-arrière (Fore-Background Spatiotemporal Modeling, FBST), visant à atténuer les perturbations lumineuses externes. Cette approche ouvre la voie à une estimation plus précise et plus adaptable des paramètres physiologiques à partir de vidéos.
Origine de l’article et auteurs
L’article intitulé Estimation of heart rate and respiratory rate by fore-background spatiotemporal modeling of videos a été rédigé par Xiujuan Zheng, Wenqin Yan, Boxiang Liu, Yue Ivan Wu et Haiyan Tu de l’Université du Sichuan. Il a été publié le 1er février 2025 dans la revue Biomedical Optics Express (Vol. 16, No. 2). Cette recherche a été financée par la Fondation nationale des sciences naturelles de Chine (62271333) et le programme de soutien technologique de la province du Sichuan (2022YFS0032).
Méthodologie et étapes
Cette étude propose une méthode novatrice basée sur le FBST pour estimer simultanément la HR et la RR, tout en modélisant efficacement les variations d’éclairage environnementales. Voici un aperçu des principales étapes de la méthodologie :
1. Définition des régions d’intérêt (ROI) et acquisition des signaux
Les auteurs ont identifié les régions d’intérêt (Regions of Interest, ROIs) dans la vidéo. Les régions de premier plan incluent le visage et la poitrine, utilisées respectivement pour l’extraction des signaux de pouls et des signaux respiratoires. Les régions d’arrière-plan comprennent les zones de la vidéo ne contenant pas de corps humains. La détection des ROIs de premier plan a été automatisée à l’aide de l’algorithme SeetaFace, garantissant une extraction précise des signaux physiologiques.
Pour améliorer la précision, le visage a été subdivisé en plusieurs petites ROIs, en retirant les quatre coins où le bruit est plus élevé. Quant à la région de la poitrine, les zones avec le meilleur rapport signal/bruit (SNR) ont été sélectionnées. Les variations lumineuses des ROIs d’arrière-plan ont été extraites à l’aide d’une analyse en composantes principales (PCA).
2. Modélisation spatio-temporelle et construction des images
Les auteurs se sont appuyés sur le modèle de réflexion dichromatique (Dichromatic Reflection Model) pour établir une modélisation avant-arrière. Ce modèle décrit les variations temporelles des réflexions lumineuses sur le visage et la poitrine. Par exemple, la réflexion diffuse du visage varie en fonction des changements de volume sanguin, révélant les informations liées au rythme cardiaque, tandis que la réflexion spéculaire sur la poitrine varie avec les mouvements respiratoires.
Ensuite, des cartes spatio-temporelles (Spatiotemporal Maps) du premier plan et de l’arrière-plan ont été générées sous forme matricielle, capturant les informations temporelles et spatiales nécessaires.
3. Conception et application des couches spatio-temporelles (ST Layers)
Pour éliminer les perturbations lumineuses, une couche de réseau neuronal légère, appelée couche spatio-temporelle (Spatiotemporal Layer, ST Layer), a été introduite. Deux types de couches ont été définis : la couche ST linéaire et la couche ST non linéaire. La couche ST linéaire, basée sur des connexions entièrement connectées, est adaptée aux scènes avec éclairage simple, tandis que la couche ST non linéaire, utilisant une couche de convolution (noyau 1×1) et une fonction d’activation ReLU, est spécifiquement conçue pour traiter les perturbations complexes de l’arrière-plan.
4. Estimation des paramètres à l’aide de ResNet-18
Enfin, les cartes de caractéristiques résultantes, après l’élimination des variations lumineuses, ont été utilisées comme entrées dans un réseau neuronal ResNet-18 pour estimer simultanément la HR et la RR. Une stratégie d’apprentissage par transfert a été adoptée, combinée à l’optimisation par une fonction de perte L1 et au calcul du coefficient de corrélation de Pearson.
Résultats et observations
Estimation du rythme cardiaque
Les chercheurs ont évalué la performance de la méthode FBST en utilisant trois bases de données publiques (UBFC-rPPG, PURE, COHFACE) ainsi qu’une base de données privée collectée par leurs soins.
- Performance : Sur le jeu de données UBFC-rPPG, la méthode FBST a obtenu une erreur quadratique moyenne (RMSE) de 2,79, surpassant de manière significative la méthode PhysNet (RMSE de 3,70). Sur la base de données privée, la méthode FBST a atteint une RMSE de 2,41, confirmant sa haute précision. Comparée aux méthodes traditionnelles (telles que ICA ou PCA), FBST montre une supériorité marquée dans des conditions d’éclairage complexes.
- Analyse des signaux : Les signaux de pouls extraits correspondent aux signaux de référence, démontrant que FBST capture efficacement les informations rythmiques du pouls en domaine temporel.
Estimation du rythme respiratoire
Pour la RR, la méthode FBST a obtenu un RMSE de 3,62 sur le jeu de données COHFACE et un RMSE de 5,27 sur le jeu de données privé, surpassant les méthodes existantes (comme PhysNet et TS-CAN). De plus, cette méthode démontre pour la première fois la faisabilité d’une estimation RR sur des ensembles de données publics avec des fenêtres temporelles courtes (10 secondes), ouvrant la voie à une surveillance respiratoire en temps réel.
Équilibrage des données
Pour les bases de données UBFC et PURE présentant un déséquilibre des distributions de HR, une stratégie de rééchantillonnage a été adoptée. Les résultats montrent une réduction significative des erreurs (MAE et RMSE), en particulier pour les HR faibles.
Valeur et perspectives
Valeur scientifique et applications potentielles
- Innovation dans la modélisation de l’éclairage : Cette étude propose une méthode innovante pour gérer les variations lumineuses dans l’analyse des signaux physiologiques à partir de vidéos, répondant aux défis des environnements complexes.
- Surveillance en temps réel : La méthode FBST, grâce à son réseau neuronal léger, réduit considérablement les besoins en ressources informatiques, favorisant une surveillance cardiorespiratoire efficace.
- Applications généralisées : La méthode convient particulièrement aux contextes non invasifs, tels que la télémédecine ou la surveillance psychologique.
Directions futures
Des limitations subsistent, notamment la gestion des mouvements de tête intenses et des environnements avec de grandes sources lumineuses dynamiques. De futurs travaux pourraient améliorer la recherche automatique des ROIs de l’arrière-plan et accroître l’adaptabilité du modèle aux environnements dynamiques. De plus, des analyses quantitatives pourraient être explorées pour choisir automatiquement les meilleures structures de modèles non linéaires.
Conclusion
Cette étude s’attaque au défi des variations lumineuses dans l’estimation de la HR et de la RR à partir de vidéos en proposant une méthode FBST innovante. Que ce soit pour l’élimination des perturbations, l’amélioration de la précision, ou le soutien à des applications en temps réel, cette recherche marque une avancée significative. Elle fournit des outils théoriques et pratiques efficaces, tout en ouvrant des perspectives prometteuses au développement de la surveillance médicale sans contact.