CLASH : Apprentissage Complémentaire avec Recherche d'Architecture Neuronale pour la Reconnaissance de la Démarche

2024-05-24 Fri
reconnaissance de la démarche représentation dense apprentissage complémentaire recherche d'architecture neuronale DSTF résultats expérimentaux
CLASH : Cadre de reconnaissance de la démarche basé sur l’apprentissage complémentaire et la recherche d’architecture neuronaleContexte de la rechercheLa reconnaissance de la démarche est une technique biométrique qui identifie les individus en fonction de leur façon de marcher. Cette technique a de larges applications dans des domaines tels que les contrôles de sécurité, la recherche vidéo et l’identification, car elle peut être effectuée à longue distance sans coopération des individus. Cependant, les méthodes de reconnaissance basées sur les contours des silhouettes présentent certains problèmes : une représentation des contours binarisée manque d’informations spatio-temporelles riches, rendant la plupart des pixels des contours insensibles au modèle de marche. Pour améliorer la sensibilité aux modèles de marche tout en maintenant la robustesse de la reconnaissance, cet article propose un cadre d’apprentissage complémentaire basé sur la recherche d’architecture neuronale (Complementary Learning with Neural Architecture Search, CLASH), visant à résoudre les problèmes mentionnés ci-dessus.
Source du papierCet article a été écrit par Huanzhang Dou, Pengyi Zhang, Yuhan Zhao, Lu Jin et Xi Li, provenant respectivement de l’Université de Zhejiang et du groupe Ant. Il a été publié dans le Journal of Latex Class Files, vol. 14, no. 8, en août 2021.
Processus de la rechercheLe processus de recherche de cet article comprend principalement trois parties : le développement de descripteurs de démarche, l’apprentissage complémentaire et la validation expérimentale.
Développement des descripteurs de démarcheTout d’abord, les auteurs proposent un descripteur de démarche appelé champ spatial-temporel dense (Dense Spatial-Temporal Field, DSTF), qui capture les changements subtils du mouvement en convertissant les contours binaires en une représentation texturée basée sur les distances denses. Cette méthode utilise la transformation bidirectionnelle de distance (Bidirectional Distance Transform, Bi-DT) pour convertir la valeur de chaque pixel en sa distance par rapport aux pixels de contour les plus proches. Compte tenu des différences sémantiques et de distribution des pixels entre le premier plan et l’arrière-plan, les auteurs proposent une stratégie de séparation premier plan / arrière-plan pour séparer explicitement le premier plan et l’arrière-plan à l’aide de fonctions de distance signées et de normalisations.
Apprentissage complémentairePour exploiter efficacement la sensibilité des descripteurs de démarche DSTF et la robustesse des contours des silhouettes, cet article propose une méthode d’apprentissage complémentaire basée sur la recherche d’architecture neuronale (Neural Architecture Search, NAS). Plus précisément, les auteurs ont conçu un espace de recherche spécifique à la tâche, intégrant des caractéristiques des contours des silhouettes et du DSTF via une optimisation bilatérale et des cellules multi-descripteurs (Multi-Descriptor Cell, MD).
Résultats expérimentauxLes résultats expérimentaux montrent que la méthode proposée dépasse les méthodes existantes sur plusieurs ensembles de données couramment utilisés tant en environnement de laboratoire qu’en environnement réel.
Performances en environnement de laboratoireSur la base de données CASIA-B, le cadre CLASH a obtenu une amélioration significative des performances dans les trois conditions de test courantes (normale, avec un sac et avec des changements vestimentaires). En particulier, pour une résolution de 128×88, le taux de précision Rank-1 a atteint 98,8%, 96,5% et 89,3%.
Sur la base de données OU-MVLP, le cadre CLASH a obtenu un taux moyen de précision Rank-1 de 91,9% sur tous les angles, dépassant nettement les méthodes précédemment optimales.
Performances en environnement réelSur les ensembles de données récents de Gait3D et GREW en environnement réel, le cadre CLASH a amélioré le taux de précision Rank-1 de 16,3% et 19,7% respectivement, surpassant nettement les méthodes basées sur les contours des silhouettes, et dans certaines conditions, surpassant même les méthodes utilisant des informations 3D supplémentaires.
Conclusion et valeur de la rechercheLe cadre CLASH proposé dans cet article améliore de manière significative la précision et la robustesse de la reconnaissance de la démarche en combinant une représentation texturée basée sur des distances denses et une méthode d’apprentissage complémentaire basée sur la recherche d’architecture neuronale. En particulier, le descripteur DSTF capture les changements subtils du mouvement pour améliorer la sensibilité aux modèles de marche, tandis que la stratégie de séparation premier plan / arrière-plan résout les problèmes numériques. L’apprentissage complémentaire mis en œuvre via NAS réduit non seulement le travail de réglage manuel, mais garantit aussi une complémentarité efficace entre différents descripteurs de démarche. Ces innovations fournissent de nouvelles perspectives et outils pour la recherche en reconnaissance de la démarche, avec une grande valeur scientifique et applicative.
Points forts et innovationsDescripteur de démarche DSTF : Une sensibilité significativement améliorée aux modèles de marche grâce à la transformation bidirectionnelle de distance et à la stratégie de séparation premier plan / arrière-plan.
Apprentissage complémentaire par NAS : Utilisation de NAS pour concevoir automatiquement une architecture d’apprentissage complémentaire, améliorant la fusion des caractéristiques des contours des silhouettes et du DSTF.
Résultats expérimentaux : Le cadre CLASH a montré des performances exceptionnelles dans plusieurs ensembles de données aussi bien en environnement de laboratoire qu’en environnement réel, prouvant son efficacité et sa robustesse.
Grâce à la méthode proposée, la technologie de reconnaissance de la démarche a fait des progrès significatifs en termes de précision et de robustesse, offrant un soutien technique plus solide pour des applications pratiques telles que la surveillance de la sécurité et l’identification. Les recherches futures pourraient tester et optimiser cette méthode dans davantage de scénarios pratiques, afin de promouvoir davantage le développement et l’application de la technologie de reconnaissance de la démarche.