Exploration des associations d'étiquettes cohérentes homogènes et hétérogènes pour la ré-identification non supervisée des personnes en lumière visible et infrarouge
Exploration des associations de labels homogènes et hétérogènes cohérentes pour la ré-identification non supervisée de personnes en visible-infrarouge
Introduction
La ré-identification de personnes en visible-infrarouge (Visible-Infrared Person Re-Identification, VI-ReID) est un domaine de recherche important en vision par ordinateur, visant à retrouver des images de la même personne à partir de différentes modalités (visible et infrarouge). Cette tâche a des applications prometteuses dans les systèmes de surveillance intelligents, en particulier dans des conditions de faible luminosité ou de nuit, où les images infrarouges fournissent des informations supplémentaires. Cependant, les méthodes existantes de VI-ReID reposent principalement sur des données annotées, dont l’acquisition est à la fois coûteuse en temps et en efforts. Par conséquent, les méthodes non supervisées de VI-ReID sont devenues un axe de recherche important.
Les méthodes non supervisées existantes se concentrent principalement sur la création d’associations de labels pseudo-supervisés entre les modalités pour combler les écarts modaux. Cependant, ces méthodes négligent souvent la cohérence homogène et hétérogène entre l’espace des caractéristiques et l’espace des labels pseudo-supervisés, ce qui entraîne des associations de labels grossières. Pour résoudre ce problème, cet article propose un module de transfert de labels unifié par modalité (Modality-Unified Label Transfer, MULT), qui prend en compte à la fois les structures homogènes et hétérogènes au niveau des instances, générant ainsi des associations de labels pseudo-supervisés de haute qualité entre les modalités.
Source de l’article
Cet article a été co-écrit par Lingfeng He, De Cheng, Nannan Wang et Xinbo Gao, respectivement affiliés à l’Université de Xidian et à l’Université des Postes et Télécommunications de Chongqing. L’article a été soumis le 25 avril 2024 et accepté le 29 novembre 2024, publié dans la revue International Journal of Computer Vision.
Processus de recherche et conception expérimentale
1. Module de transfert de labels unifié par modalité (MULT)
L’idée centrale du module MULT est de modéliser les affinités homogènes et hétérogènes entre les instances pour quantifier l’incohérence entre l’espace des labels pseudo-supervisés et l’espace des caractéristiques, puis de minimiser cette incohérence pour générer des labels pseudo-supervisés de haute qualité entre les modalités. Plus précisément, le module MULT fonctionne en plusieurs étapes :
Modélisation des affinités : MULT commence par modéliser les affinités homogènes et hétérogènes à partir des relations entre les instances dans l’espace des caractéristiques. Les affinités homogènes sont calculées à l’aide de la similarité de Jaccard, tandis que les affinités hétérogènes sont modélisées via un problème de transport optimal (Optimal Transport, OT).
Définition de l’incohérence : Basée sur les matrices d’affinité, MULT définit des termes d’incohérence homogène et hétérogène. Ces termes mesurent les écarts entre l’espace des labels pseudo-supervisés et l’espace des caractéristiques.
Transfert de labels : MULT met à jour de manière itérative les labels pseudo-supervisés pour minimiser les termes d’incohérence. À chaque itération, les informations de labels pseudo-supervisés des instances sont échangées avec leurs homologues intra-modales et inter-modales, générant ainsi des labels pseudo-supervisés plus précis.
2. Module d’optimisation en ligne des labels inter-mémoires (OCLR)
Pour réduire davantage l’impact négatif des labels pseudo-supervisés bruités, cet article propose un module d’optimisation en ligne des labels inter-mémoires (OCLR). OCLR apprend la cohérence interne entre les prédictions de plusieurs prototypes de mémoire, réduisant ainsi les écarts modaux. Plus précisément, le module OCLR utilise des résultats de prédiction provenant de différentes mémoires pour optimiser les labels pseudo-supervisés via un apprentissage contrastif.
3. Cadre d’apprentissage alternatif de représentations invariantes par modalité (AMIRL)
Pour exploiter pleinement les labels pseudo-supervisés générés par MULT, cet article propose un cadre d’apprentissage alternatif de représentations invariantes par modalité (AMIRL). AMIRL utilise des mémoires intra-modales et inter-modales pour l’apprentissage contrastif des caractéristiques. De plus, AMIRL introduit une mémoire auxiliaire pour apprendre la structure des labels pseudo-supervisés inter-modaux, optimisant ainsi davantage la représentation des caractéristiques.
Résultats expérimentaux et conclusions
Des expériences ont été menées sur les ensembles de données publics SYSU-MM01 et RegDB, et les résultats montrent que la méthode proposée surpasse significativement les méthodes existantes de pointe en VI-ReID non supervisée. Plus précisément, la méthode atteint un taux de précision Rank-1 de 64,77 % et un mAP de 59,23 % sur SYSU-MM01, ainsi qu’un taux de précision Rank-1 de 89,95 % et un mAP de 82,09 % sur RegDB.
Contributions principales
Module MULT : Le module MULT proposé génère des labels pseudo-supervisés inter-modaux cohérents en termes d’homogénéité et d’hétérogénéité, en utilisant des structures contextuelles au niveau des instances. Les labels générés maintiennent l’alignement inter-modal tout en contenant des informations intra-modales riches.
Module OCLR : Le module OCLR conçu permet d’apprendre en ligne la cohérence inter-mémoires, atténuant efficacement les effets négatifs des labels bruités tout en réduisant les écarts modaux.
Cadre AMIRL : Le cadre AMIRL proposé exploite pleinement les signaux de supervision de MULT, améliorant ainsi l’apprentissage des représentations invariantes par modalité.
Points forts de la recherche
Associations de labels inter-modaux de haute qualité : Les labels pseudo-supervisés générés par le module MULT sont de haute qualité, guidant efficacement l’apprentissage des représentations inter-modales par le réseau.
Réduction de l’impact des labels bruités : Le module OCLR optimise en ligne les labels pseudo-supervisés, réduisant ainsi l’impact négatif des labels bruités sur l’entraînement du modèle.
Apprentissage de caractéristiques invariantes par modalité : Le cadre AMIRL, grâce à son schéma d’entraînement alternatif, exploite pleinement les labels pseudo-supervisés inter-modaux, améliorant ainsi les performances du modèle.
Travaux futurs
Les recherches futures s’appuieront sur le module MULT proposé pour explorer des méthodes d’association de labels inter-modaux plus robustes, afin d’améliorer davantage les performances des tâches de VI-ReID non supervisées.
Grâce à cette recherche, nous avons non seulement proposé une nouvelle méthode de VI-ReID non supervisée, mais également fourni de nouvelles idées et méthodes pour les futures tâches d’apprentissage inter-modal.