Double espace vidéo piéton reconnaissance lourde
Recherche sur l’identification vidéo de personnes dans un espace dual
Introduction au contexte
La technologie d’identification de personnes (Person Re-Identification, ReID) vise à identifier des individus spécifiques à travers des images ou des séquences vidéo capturées par différentes caméras. Ces dernières années, avec le développement rapide de la technologie d’apprentissage profond, la technologie ReID a montré un énorme potentiel d’application dans les domaines de la sécurité urbaine, de la recherche de personnes disparues et du suivi de suspects. Cependant, les méthodes ReID existantes reposent principalement sur l’espace euclidien pour l’apprentissage des représentations de caractéristiques, ce qui pose de nombreux défis dans le traitement de scènes complexes, tels que les occultations, les arrière-plans encombrés et la modélisation d’informations spatio-temporelles complexes.
Pour résoudre ces problèmes, une équipe de recherche de l’Université des Postes et Télécommunications de Chongqing a proposé un nouveau cadre appelé “Identification Vidéo de Personnes dans un Espace Dual” (Dual-Space Video Person Re-Identification, DS-VReID). Ce cadre introduit pour la première fois l’espace hyperbolique dans la tâche d’identification vidéo de personnes, combinant les avantages des espaces euclidien et hyperbolique pour capturer plus efficacement les caractéristiques visuelles et les relations hiérarchiques, améliorant ainsi les performances d’identification. La signification de cette recherche réside dans l’exploration de la valeur potentielle de la géométrie non-euclidienne dans le domaine de la vision par ordinateur et propose de nouvelles idées pour résoudre les problèmes d’identification de personnes dans des scènes complexes.
Origine de la recherche
Cette étude a été réalisée par une équipe de recherche du Laboratoire Clé d’Imagerie Cognitive (Key Laboratory of Image Cognition) de l’Université des Postes et Télécommunications de Chongqing et de l’Institut de Recherche sur le Cerveau et l’Intelligence de Chongqing (Chongqing Institute for Brain and Intelligence). Le premier auteur de l’article est Jiaxu Leng, et le correspondant est le Professeur Xinbo Gao. L’article a été publié dans le International Journal of Computer Vision, reçu le 6 janvier 2025, avec le DOI 10.1007/s11263-025-02350-5.
Contenu et méthodologie de la recherche
a) Processus de recherche
Le cadre DS-VReID comprend principalement trois modules : Construction Dynamique de Graphes par Prompt (Dynamic Prompt Graph Construction, DPGC), Agrégation Hyperbolique Désolidarisée (Hyperbolic Disentangled Aggregation, HDA) et Fusion d’Espaces Duels (Dual-Space Fusion, DSF). Voici les détails du processus de chaque module :
1. Construction Dynamique de Graphes par Prompt (DPGC)
L’objectif du module DPGC est d’extraire les régions corporelles humaines à partir des vidéos et de construire un graphe squelette humain. Les étapes spécifiques sont les suivantes : - Données d’entrée : L’étude utilise des séquences vidéo du jeu de données MARS, chaque vidéo contenant 8 images, avec une résolution de 256×128. - Extraction de caractéristiques : Les trames vidéo sont d’abord envoyées dans un modèle CLIP pré-entraîné (Radford et al., 2021) pour extraire les caractéristiques visuelles. Le modèle CLIP combine des descriptions textuelles globales (telles que “personne”, “tête”, “tronc”, etc.) et des prompts dynamiques (Dynamic Prompts) pour localiser les régions corporelles humaines. - Stratégie grossière à fine : Le module DPGC adopte une stratégie d’extraction de caractéristiques allant du grossier au fin. Tout d’abord, il localise l’ensemble du corps humain à l’aide de descriptions globales (par exemple, “une personne”) ; puis, il extrait des caractéristiques locales spécifiques à l’aide de descriptions locales (par exemple, “la partie tête d’une personne”). - Construction de graphes : Les régions corporelles humaines extraites servent de nœuds du graphe, et les relations entre les nœuds comme arêtes, pour finalement construire un graphe squelette humain.
2. Agrégation Hyperbolique Désolidarisée (HDA)
Le module HDA vise à résoudre les problèmes de modélisation des dépendances à longue portée dans l’espace hyperbolique. Son idée centrale est de décomposer la matrice d’adjacence en sous-matrices de différents ordres et d’agréger progressivement les informations spatio-temporelles via une stratégie de fenêtre temporelle glissante. Les étapes spécifiques sont les suivantes : - Traitement spatial : Calculer la matrice d’adjacence (A_k) basée sur les distances entre les nœuds, et attribuer un poids uniforme aux nœuds situés à la même distance. - Traitement temporel : Sélectionner les trames dans une fenêtre temporelle spécifique pour agrégation, intégrant progressivement les informations de toute la séquence vidéo. - Opération GCN hyperbolique : Effectuer des opérations de convolution de graphes dans l’espace hyperbolique pour capturer des relations hiérarchiques spatio-temporelles détaillées.
3. Fusion d’Espaces Duels (DSF)
Le module DSF fusionne les représentations de caractéristiques des espaces euclidien et hyperbolique pour tirer parti des avantages des deux espaces. Les méthodes spécifiques incluent : - Mapper les caractéristiques de l’espace hyperbolique vers l’espace tangent (Tangent Space). - Fusionner et pondérer les deux types de caractéristiques dans l’espace tangent pour obtenir la représentation finale des caractéristiques.
b) Résultats principaux
1. Effet du module DPGC
Les expériences montrent que le module DPGC améliore considérablement les performances du modèle. Sur le jeu de données MARS, avec seulement le modèle de base, le mAP et la précision Rank-1 étaient respectivement de 82,1 % et 88,5 % ; après l’ajout du module DPGC, ces deux indicateurs ont augmenté respectivement de 3,6 % et 1,8 %. Cela montre que le module DPGC peut efficacement éliminer le bruit de fond et se concentrer sur les régions liées aux piétons.
2. Effet du module HDA
Le module HDA améliore encore les performances du modèle. Sur le jeu de données MARS, après l’ajout du module HDA, le mAP et la précision Rank-1 ont augmenté respectivement de 1,7 % et 1,0 %. Les expériences ont également révélé que des fenêtres temporelles plus petites (par exemple, τ=[3,3]) s’adaptent mieux aux caractéristiques de distance de l’espace hyperbolique, améliorant ainsi les performances.
3. Effet du module DSF
Le module de fusion d’espaces duels (DSF) combine les caractéristiques des espaces euclidien et hyperbolique, améliorant considérablement les performances globales du modèle. Sur le jeu de données MARS, le mAP final et la précision Rank-1 de DS-VReID ont atteint respectivement 87,6 % et 92,3 %, surpassant les méthodes les plus avancées actuelles.
c) Conclusion de la recherche
Le cadre DS-VReID réussit à résoudre les problèmes d’identification de personnes dans des scènes complexes en combinant les avantages des espaces euclidien et hyperbolique. Cette méthode a non seulement obtenu les meilleures performances sur plusieurs jeux de données tels que MARS, LS-VID et DukeMTMC-VideoReID, mais a également excellé sur les jeux de données ILIDS-VID et PRID2011. Ces résultats prouvent la supériorité de DS-VReID dans la capture des caractéristiques visuelles et des relations hiérarchiques.
d) Points forts de la recherche
- Innovation : Introduit pour la première fois l’espace hyperbolique dans la tâche d’identification vidéo de personnes, proposant l’idée de fusion d’espaces duels.
- Praticité : Le module DPGC réduit efficacement l’impact du bruit de fond grâce aux prompts dynamiques et à la stratégie grossière à fine.
- Avancée technique : Le module HDA résout les problèmes de modélisation des dépendances à longue portée dans l’espace hyperbolique, améliorant considérablement les performances du modèle.
- Complétude : Grâce à la coopération multi-module, une modélisation efficace des scènes complexes est réalisée.
e) Autres informations précieuses
L’équipe de recherche a également mené de nombreuses expériences d’ablation pour valider l’efficacité de chaque module. Par exemple, différentes conceptions de prompts textuels ont un impact significatif sur les performances, le prompt “a {cls} part of a person” ayant obtenu les meilleurs résultats. De plus, les expériences ont montré que les prompts dynamiques jouent un rôle clé dans la capture des changements subtils et des informations dynamiques dans les vidéos.
Signification et valeur de la recherche
Le cadre DS-VReID fournit non seulement une nouvelle solution pour le domaine de l’identification de personnes, mais montre également la valeur potentielle de la géométrie non-euclidienne dans la vision par ordinateur. Cette méthode excelle dans le traitement de scènes complexes telles que les occultations et les arrière-plans encombrés, offrant de larges perspectives d’application, notamment dans la surveillance de la sécurité urbaine, les systèmes de transport intelligents et l’analyse de grandes foules. En outre, cette recherche jette les bases pour explorer davantage les applications de l’espace hyperbolique dans d’autres tâches de vision par ordinateur à l’avenir.