Réseau Transformer Vision-Langage avec Attention Dynamique pour la Ré-Identification des Personnes

Rapport de recherche sur le réseau Transformer vision-langage à attention dynamique pour la réidentification de personnes

Ces dernières années, la technologie de réidentification de personnes multimodale (Person Re-Identification, ReID) a suscité un intérêt croissant dans le domaine de la vision par ordinateur. La réidentification de personnes vise à identifier des piétons spécifiques à travers différents angles de caméra et joue un rôle clé dans les applications de sécurité et de surveillance, telles que la localisation de personnes disparues ou le suivi de criminels. Cependant, la technologie ReID multimodale fait face à des défis majeurs dans l’intégration des informations visuelles et textuelles, notamment les biais dans la fusion des caractéristiques et l’impact des écarts de domaine sur les performances des modèles.

Cet article, rédigé par Guifang Zhang, Shijun Tan, Zhe Ji et Yuming Fang, affiliés à l’École d’informatique et d’intelligence artificielle de l’Université de Finance et d’Économie du Jiangxi et à la Newcastle Business School de l’Université de Newcastle, est publié en 2024 dans l’International Journal of Computer Vision. L’étude propose un réseau Transformer vision-langage à attention dynamique (Dynamic Attention Vision-Language Transformer, DAVLT) conçu pour surmonter les problèmes susmentionnés dans le domaine de la ReID multimodale.


Contexte et motivations

La réidentification de personnes a longtemps été confrontée à plusieurs défis techniques, notamment les images floues, la faible résolution, les interférences de l’arrière-plan et les occlusions, qui affectent les performances, en particulier dans les environnements complexes et avec des angles de vue variés. Les approches initiales, basées sur des réseaux neuronaux convolutifs (CNN), se sont révélées limitées dans l’extraction de caractéristiques locales. Plus récemment, les méthodes basées sur les Transformers, grâce à leur capacité exceptionnelle à capturer des caractéristiques fines, ont gagné en popularité.

Avec l’émergence de modèles multimodaux pré-entraînés à grande échelle tels que CLIP et ViLT, les chercheurs ont exploré l’intégration d’informations issues des modalités visuelle et textuelle pour améliorer la précision de la ReID. Cependant, une simple fusion des caractéristiques peut amplifier les informations inutiles, réduisant ainsi les performances des modèles.

Pour résoudre ces défis, l’article propose le réseau DAVLT, qui réduit l’impact des informations inutiles pendant l’interaction des caractéristiques et comble l’écart de domaine entre les données de pré-entraînement et les données spécifiques à la tâche.


Méthodologie

Architecture du réseau

Le réseau DAVLT comprend les modules suivants : 1. Encodeur d’images : Utilise le Vision Transformer (ViT) pré-entraîné pour extraire des caractéristiques discriminantes des images. 2. Encodeur de texte : Génère des caractéristiques textuelles à l’aide de ViLT. Un modèle de texte prédéfini comme « a [mask] wears a pair of [mask] pants… » est utilisé pour garantir la cohérence des descriptions textuelles. 3. Module adaptateur (Adapter Module) : Réduit les écarts entre les distributions des données de pré-entraînement et celles des tâches avales. 4. Module d’attention dynamique image-texte (ITDA) : Intègre les informations visuelles et textuelles en mettant en valeur les éléments pertinents et en supprimant les bruits inutiles.

Module ITDA

Le module ITDA repose sur un mécanisme de pondération attentionnelle qui calcule dynamiquement les poids d’attention texte-vers-image et image-vers-texte. Par exemple, pour une description comme « une femme porte des vêtements rouges », le modèle identifie la région des « vêtements rouges » dans l’image et lui attribue un poids plus élevé.

Fonction de perte

Le réseau est optimisé en combinant la perte d’entropie croisée (ID Loss) et la perte triplet (Triplet Loss). Cette combinaison garantit que les échantillons de la même classe sont rapprochés tandis que ceux de classes différentes sont éloignés dans l’espace d’intégration.


Résultats expérimentaux

Les performances du réseau DAVLT ont été évaluées sur trois ensembles de données de référence : Market1501, MSMT17 et DukeMTMC.

Comparaison des performances

Sur Market1501, DAVLT a atteint 91,1 % de mAP et 96,3 % de précision Rank-1, surpassant les méthodes existantes telles que TransReID et CLIP-ReID. Sur MSMT17, le réseau a obtenu un mAP de 71,7 % et un Rank-1 de 87,6 %, montrant des résultats compétitifs.

Études d’ablation

Plusieurs études d’ablation ont été menées pour évaluer l’impact des différents modules : 1. Efficacité du module ITDA : L’ajout du module ITDA a amélioré le mAP de 2,2 % et la précision Rank-1 de 1,1 % sur Market1501. 2. Impact du module adaptateur : Avec le module adaptateur, les performances ont augmenté de 0,4 % (mAP) et 0,3 % (Rank-1) sur Market1501. 3. Méthodes d’intégration des caractéristiques : Les résultats montrent que la concaténation des caractéristiques est plus efficace que l’addition simple ou pondérée.


Implications et limites

L’article propose plusieurs contributions : 1. Un module ITDA pour une intégration dynamique des caractéristiques visuelles et textuelles, réduisant l’impact des informations inutiles. 2. Un module adaptateur efficace pour résoudre les écarts de domaine. 3. Des performances de pointe sur des ensembles de données variés, démontrant la faisabilité de l’intégration des modalités.

Cependant, certaines limites subsistent, notamment dans les cas de résolution d’image faible ou d’apparences très similaires. Des descriptions textuelles améliorées et des méthodes d’extraction de caractéristiques plus sophistiquées pourraient remédier à ces problèmes.


Conclusion

Cet article propose un réseau Transformer vision-langage à attention dynamique (DAVLT) qui intègre de manière optimale les modalités visuelle et textuelle. Grâce à une intégration des caractéristiques dynamique et une adaptation inter-domaines, le réseau atteint des performances supérieures sur plusieurs ensembles de données de référence. Ces travaux ouvrent la voie à de futures recherches dans la réidentification de personnes multimodale.