Apprentissage de l'alignement des modalités intermédiaires adaptatives pour la réidentification des personnes visible-infrarouge

Étude sur la méthode d’alignement adaptatif des modalités intermédiaires pour l’apprentissage entre la lumière visible et l’infrarouge

Contexte et problématique de la recherche

Avec l’essor des systèmes de surveillance intelligente, la ré-identification de personnes en lumière visible et infrarouge (Visible-Infrared Person Re-identification, VIReID) attire une attention croissante. Cette tâche vise à faire correspondre des images de personnes issues de spectres optiques différents (comme le visible et l’infrarouge) pour permettre une identification continue, 24 heures sur 24. Cependant, les images visibles et infrarouges proviennent de spectres optiques distincts et présentent des écarts de modalité significatifs (ex. : éclairage, texture, couleur), rendant difficile leur correspondance.

Les méthodes classiques tentent souvent de réduire cet écart par le biais de modèles complexes, comme les réseaux antagonistes génératifs (Generative Adversarial Networks, GANs) ou des architectures profondes, mais elles rencontrent plusieurs limites : - Manque d’adaptabilité aux variations des écarts de modalité entre différentes images. - Différences marquées entre les images générées et les images réelles. - Complexité des modèles, limitant leur application pratique.

Pour répondre à ces défis, cet article propose une méthode d’alignement adaptatif des modalités intermédiaires (Adaptive Middle-Modality Alignment Learning, AMML). Elle génère et aligne dynamiquement des modalités intermédiaires aux niveaux de l’image et des caractéristiques afin de réduire efficacement les écarts de modalité, améliorant ainsi les performances des tâches VIReID.


Origine et publication de la recherche

Cet article, réalisé par Yukang Zhang, Yan Yan, Yang Lu et Hanzi Wang, est le fruit des travaux menés au sein des laboratoires de l’université de Xiamen, notamment le Key Laboratory of Multimedia Trusted Perception and Efficient Computing et le Fujian Key Laboratory of Sensing and Computing for Smart City. Publié en 2024 dans l’International Journal of Computer Vision, il porte le titre Adaptive Middle-Modality Alignment Learning for Visible-Infrared Person Re-identification et peut être consulté via DOI 10.1007/s11263-024-02276-4.


Méthodologie et étapes

1. Structure générale

La méthode AMML repose sur trois modules principaux : 1. Générateur adaptatif de modalité intermédiaire (Adaptive Middle-Modality Generator, AMG) : Génère des images intermédiaires au niveau de l’image pour unifier les espaces visibles et infrarouges. 2. Perte d’alignement adaptatif des distributions (Adaptive Distribution Alignment, ADA) : Aligne les distributions des caractéristiques visibles, infrarouges et intermédiaires au niveau des caractéristiques. 3. Perte d’apprentissage des distributions diversifiées (Center-Based Diverse Distribution Learning, CDDL) : Apprend des distributions diversifiées entre trois modalités, tout en réduisant les écarts de modalité.

Ce cadre, basé sur ResNet50, utilise un apprentissage de bout en bout, intégrant ces modules dans un réseau léger et efficace.

2. Générateur adaptatif de modalité intermédiaire (AMG)

Le module AMG génère des images de modalité intermédiaire par les étapes suivantes : - Projection des images visibles et infrarouges dans un espace de niveau gris à une seule canal. - Transformation non linéaire pour rapprocher ces images d’une modalité unifiée. - Reconstruction des images à trois canaux dans l’espace de modalité intermédiaire (UMMI).

Une stratégie de mixage adaptatif (MixUp) est également proposée pour ajuster dynamiquement les images générées, améliorant ainsi l’alignement des modalités.

3. Perte d’alignement adaptatif des distributions (ADA)

La perte ADA ajuste dynamiquement les écarts de modalité en utilisant des facteurs de modalité pour aligner les caractéristiques visibles et infrarouges avec les caractéristiques intermédiaires. La formule est donnée par :

$$ L{\text{ADA}} = \frac{1}{N} \sum{i=1}^N \left[ mv \cdot |f{vis} - f_{m}| + mn \cdot |f{nir} - f_{m}| \right] $$

où $m_v$ et $m_n$ mesurent respectivement les écarts entre les modalités visible et intermédiaire, et infrarouge et intermédiaire.

4. Perte d’apprentissage des distributions diversifiées (CDDL)

La perte CDDL favorise l’apprentissage des distributions diversifiées entre modalités grâce à : - Contrainte sur les échantillons positifs : Réduction des distances entre centres de caractéristiques des mêmes identités, mais de modalités différentes. - Séparation des échantillons négatifs : Éloignement des centres de caractéristiques de modalités différentes pour des identités distinctes.

Formule : $$ L{\text{CDDL}} = \sum{i=1}^N \left[ \max(0, \alpha + d(c{v}, c{n}) - d(c{v}, c{m})) + \max(0, \alpha + d(c{n}, c{v}) - d(c{n}, c{m})) \right] $$

5. Optimisation par pertes multiples

La méthode AMML combine ces pertes (ADA et CDDL) avec des pertes classiques (ex. : entropie croisée, triplet), selon : $$ L{\text{total}} = L{\text{global}} + \lambda1 L{\text{local}} $$


Résultats expérimentaux

Datasets et métriques d’évaluation

Trois ensembles de données bien connus ont été utilisés : - SYSU-MM01 : Images visibles et infrarouges de 491 identités capturées par six caméras. - RegDB : Couples visibles-infrarouges de 412 identités. - LLCM : Dataset pour des environnements nocturnes à faible luminosité.

Les performances ont été évaluées par des courbes CMC et la moyenne de précision moyenne (mAP).

Résultats principaux

Les performances de l’AMML surpassent celles des autres méthodes de pointe sur tous les datasets : - SYSU-MM01 (mode recherche globale) : Rank-1 de 77,8 % et mAP de 74,8 %. - RegDB (visible vers infrarouge) : Rank-1 de 94,9 % et mAP de 87,8 %.

Comparée à des modèles complexes (MRCN) ou dépendants de pré-entrainement (SEFEL), AMML offre une simplicité et une généralisation supérieures.


Contributions et perspectives

  1. Contributions scientifiques : AMML propose une méthode légère mais efficace pour aligner les modalités, intégrant à la fois les niveaux image et caractéristiques.
  2. Applications pratiques : Cette méthode est prometteuse pour des systèmes de surveillance intelligents dans divers environnements et conditions.

Perspectives : - Extension d’AMML à d’autres tâches multimodales (ex. : analyse d’images multispectrales, compréhension sémantique multimodale).