CSFRNet : Intégration de la conscience de l'état des vêtements pour la ré-identification à long terme des personnes
Introduction
La ré-identification de personnes à long terme (Long-Term Person Re-Identification, LT-ReID) est une tâche cruciale dans le domaine de la vision par ordinateur, visant à associer des individus à travers des enregistrements visuels capturés à différents moments et/ou lieux par des caméras non chevauchantes. Cependant, la nature dynamique des conditions vestimentaires pose des défis importants pour les méthodes traditionnelles de LT-ReID. Les approches existantes, basées sur des indicateurs biométriques ou sur l’adaptation des données, présentent des limites, notamment en ce qui concerne la qualité des données biométriques et les changements subtils de vêtements.
Pour surmonter ces obstacles, nous proposons le Réseau de Régularisation des Caractéristiques Conscient de l’État Vestimentaire (CSFRNet). Cette nouvelle approche intègre de manière transparente la conscience de l’état vestimentaire dans le processus d’apprentissage des caractéristiques, améliorant ainsi l’adaptabilité et la précision des systèmes LT-ReID dans des scénarios où les vêtements peuvent changer complètement, partiellement ou pas du tout au fil du temps, sans nécessiter d’étiquettes vestimentaires explicites.
Méthodologie
CSFRNet : Intégration de la Conscience de l’État Vestimentaire
CSFRNet est conçu pour gérer les variations vestimentaires dans les scénarios LT-ReID. Il se compose de trois modules principaux :
ICE Stream (Inter-Class Enforcement Stream) : Ce module extrait les caractéristiques d’identité (ID Features) à partir des images. Il utilise un réseau de neurones convolutifs (CNN) pré-entraîné sur ImageNet et applique une perte d’identification (Lid) et une perte de triplet pondérée (Lwht) pour améliorer la distinction entre les différentes identités.
CFEM (Clothing Feature Extraction Module) : Ce module extrait les caractéristiques liées aux vêtements (Appearance Features) à partir des images. Il utilise le même réseau de base que l’ICE Stream mais est pré-entraîné sur un ensemble de données de ré-identification à court terme (ST-ReID) pour capturer les informations vestimentaires.
FRM (Feature Regularization Module) : Ce module régularise les caractéristiques d’identité en intégrant la conscience de l’état vestimentaire. Il utilise une méthode de clustering non supervisée pour regrouper les caractéristiques vestimentaires et ajuster les caractéristiques d’identité en fonction des changements vestimentaires.
Stratégie de Régularisation Conditionnelle des Caractéristiques (CFRS)
Pour gérer les changements partiels de vêtements, CSFRNet introduit une Stratégie de Régularisation Conditionnelle des Caractéristiques (CFRS). Cette stratégie sépare les caractéristiques du haut et du bas du corps et les régularise indépendamment, permettant une adaptation plus précise aux variations vestimentaires partielles.
Résultats Expérimentaux
CSFRNet a été évalué sur plusieurs ensembles de données LT-ReID, notamment Celeb-ReID, Celeb-ReID-Light, PRCC, DeepChange et LTCC. Les résultats montrent que CSFRNet surpasse les méthodes existantes en termes de précision et d’adaptabilité, en particulier dans les scénarios où les vêtements changent complètement, partiellement ou pas du tout.
Performances sur Celeb-ReID et Celeb-ReID-Light
Sur les ensembles de données Celeb-ReID et Celeb-ReID-Light, CSFRNet a atteint des taux de précision Rank-1 de 59,2 % et 32,6 %, respectivement, surpassant les méthodes existantes de manière significative. Ces résultats démontrent la capacité de CSFRNet à gérer à la fois les scénarios de changement de vêtements absolus (Celeb-ReID-Light) et les scénarios mixtes (Celeb-ReID).
Performances sur PRCC
Sur l’ensemble de données PRCC, CSFRNet a atteint une précision Rank-1 de 100 % dans les scénarios sans changement de vêtements, et de 55,9 % dans les scénarios avec changement de vêtements, démontrant sa robustesse dans des conditions variées.
Performances sur DeepChange et LTCC
Sur les ensembles de données DeepChange et LTCC, CSFRNet a également montré des performances supérieures, en particulier dans les scénarios de changement de vêtements à long terme. Par exemple, sur LTCC, CSFRNet a atteint une précision Rank-1 de 42,9 % dans les scénarios de changement de vêtements, surpassant les méthodes existantes.
Conclusion
CSFRNet représente une avancée significative dans le domaine de la ré-identification de personnes à long terme en intégrant la conscience de l’état vestimentaire dans le processus d’apprentissage des caractéristiques. Cette approche permet de gérer efficacement les variations vestimentaires sans nécessiter d’étiquettes vestimentaires explicites, offrant ainsi une solution robuste et adaptable pour les applications pratiques de surveillance visuelle.
Contributions Clés
Apprentissage des Caractéristiques Conscient de l’État Vestimentaire : CSFRNet introduit une nouvelle approche pour intégrer la conscience de l’état vestimentaire dans le processus d’apprentissage des caractéristiques, améliorant ainsi la robustesse des systèmes LT-ReID.
Régularisation Conditionnelle des Caractéristiques (CFRS) : La CFRS permet de gérer les changements partiels de vêtements en régularisant séparément les caractéristiques du haut et du bas du corps, offrant une adaptation plus précise aux variations vestimentaires.
Validation Expérimentale : CSFRNet a été validé sur plusieurs ensembles de données LT-ReID, démontrant des performances supérieures par rapport aux méthodes existantes, en particulier dans les scénarios de changement de vêtements.
Implications Pratiques
CSFRNet offre une solution prometteuse pour les systèmes de surveillance visuelle, en particulier dans des environnements où les vêtements des individus peuvent changer au fil du temps. Sa capacité à gérer les variations vestimentaires sans nécessiter d’étiquettes explicites en fait un outil précieux pour les applications de sécurité publique et de gestion des foules.
Perspectives Futures
Les travaux futurs pourraient explorer l’extension de CSFRNet à des scénarios encore plus complexes, tels que les changements d’accessoires ou les variations d’éclairage. De plus, l’intégration de techniques d’apprentissage non supervisé pourrait permettre de réduire davantage la dépendance aux étiquettes manuelles, rendant le système encore plus adaptable aux environnements réels.