TGFuse: Une approche de fusion d'images infrarouges et visibles basée sur le transformateur et le réseau antagoniste génératif

TGFuse : Méthode de Fusion d’Images Infrarouges et Visibles Basée sur Transformer et Réseau Génératif Adversarial

Introduction

Cadre de réseau neuronal de cette étude

Avec le développement des équipements d’imagerie et des méthodes d’analyse, les données visuelles multimodales émergent rapidement, avec de nombreuses applications pratiques. Parmi ces applications, la fusion d’images joue un rôle important pour aider les yeux humains à percevoir les relations d’information des données multimodales. En particulier, la fusion d’images infrarouges et visibles a des applications importantes dans les domaines militaires, de la sécurité et du suivi visuel, et est devenue un aspect crucial des tâches de fusion d’images. Concevoir un algorithme de fusion d’images naturel et efficace permet d’améliorer la perception à l’échelle globale de l’image, répondant ainsi aux besoins de fusion dans des scénarios complexes. Cependant, les méthodes de fusion basées sur les réseaux neuronaux convolutifs (CNN) existants ignorent directement les dépendances à distance, ce qui entrave la perception équilibrée de l’image dans son ensemble.

Les algorithmes de fusion basés sur les transformations multi-échelles traditionnelles, en extrayant les représentations multi-échelles des images sources, en les fusionnant et en les restituant, ont obtenu des résultats de recherche préliminaires. Cependant, ces méthodes ont une capacité limitée pour fusionner dans des scénarios complexes, tendent à introduire du bruit et sont inefficaces. Avec le développement de l’apprentissage profond, les réseaux neuronaux convolutifs sont devenus la norme de recherche grâce à leur capacité de représentation puissante et leur structure flexible. Cependant, comme la plupart des tâches de fusion d’images sont non supervisées, le cadre d’apprentissage supervisé de bout en bout n’est pas adapté à l’entraînement des tâches de fusion.

Cet article propose un algorithme de fusion d’images infrarouges et visibles basé sur les modules Transformer et l’apprentissage génératif adversarial pour résoudre ces problèmes. Notre innovation réside dans l’apprentissage des relations de fusion globale efficaces grâce à la technologie Transformer et l’introduction de l’apprentissage adversarial pendant l’entraînement pour obtenir une cohérence compétitive à partir de l’entrée, améliorant ainsi la distinction des images de sortie. Les résultats expérimentaux montrent que la méthode proposée offre des améliorations de performance dans des scénarios complexes.

Origine de l’étude

Le titre de cet article est “An Infrared and Visible Image Fusion Approach Based on Transformer and Generative Adversarial Network”, écrit par trois chercheurs : Dongyu Rao, Tianyang Xu et Xiao-Jun Wu, tous affiliés à l’Institut d’intelligence artificielle et de sciences informatiques de l’Université Jiangnan. L’article est publié dans la revue IEEE Transactions on Image Processing en 2023, avec le DOI 10.1109/TIP.2023.3273451.

Méthodologie de recherche

Processus de recherche

La recherche se divise en deux parties : un générateur basé sur Transformer et deux discriminateurs. Le générateur est responsable de la génération des images fusionnées, tandis que les discriminateurs affinant la qualité perceptive des images fusionnées.

  1. Générateur

    • Les images sources sont fusionnées en dimension canal et des caractéristiques initiales sont extraites via un réseau de neurones convolutifs.
    • Les caractéristiques mixtes des CNN sont entrées dans le module de fusion Transformer pour apprendre les relations de fusion globale.
    • Les opérations de sous-échantillonnage réduisent la consommation de ressources de calcul, les relations de fusion apprises sont agrandies par sur-échantillonnage à différentes échelles et multipliées aux caractéristiques correspondantes pour obtenir un premier résultat.
    • Les caractéristiques de fusion à différentes échelles sont sur-échantillonnées à la taille originale de l’image et combinées pour obtenir le résultat final de fusion.
  2. Discriminateurs

    • Deux discriminateurs sont définis : le discriminateur des images infrarouges et fusionnées (dis-ir) et le discriminateur des images visibles et fusionnées (dis-vis).
    • En utilisant le réseau pré-entraîné VGG-16 comme discriminateur, la perte L1 au niveau des caractéristiques rend l’image fusionnée plus proche de l’image infrarouge ou visible.
    • Pendant la phase d’entraînement, les images sources sont entrées dans le générateur pour obtenir une image fusionnée initiale, cette dernière est rétroactionnée au générateur par les deux discriminateurs via la fonction de perte pour l’entraînement adversarial, réalisant ainsi l’effet idéal du générateur.

Module Transformer

Le module de fusion Transformer se compose de deux parties : Transformer spatial et Transformer inter-canaux. Leur combinaison aide à obtenir des relations d’intégration globale plus complètes.

  • Transformer spatial : Les images sont divisées en blocs et aplaties en vecteurs, puis entrées dans le modèle Transformer pour l’apprentissage des relations.
  • Transformer inter-canaux : Un nouveau modèle Transformer inter-canaux est proposé pour apprendre les relations d’information entre les canaux.
  • Transformer combiné : En utilisant d’abord le Transformer inter-canaux, puis le Transformer spatial, des coefficients adaptés pour la fusion des images infrarouges et visibles sont appris.

Fonction de perte

  • Perte du générateur : Basée sur la perte SSIM (Similitude Structurelle), optimisée avec une fonction de perte unique pour éviter les conflits entre plusieurs fonctions de perte.
  • Perte du discriminateur : Inclut la perte du discriminateur des images infrarouges et fusionnées (dis-ir) et celle des images visibles et fusionnées (dis-vis), toutes échantillonnent au niveau des caractéristiques pour un calcul de perte L1 par les caractéristiques extraites du réseau VGG-16.

Résultats de l’étude

Les résultats expérimentaux sur les ensembles de données TNO, Road Scene et LLVIP montrent que la méthode proposée obtient les meilleurs ou les deuxièmes meilleurs scores sur plusieurs indicateurs d’évaluation objectifs. Par exemple, sur l’ensemble de données TNO, notre méthode obtient le meilleur score sur 5 des 9 indicateurs, et le deuxième meilleur score sur 3 indicateurs.

Évaluation subjective

En comparaison visuelle, la méthode proposée excelle à maintenir les informations significatives des images infrarouges et les informations de fond à faible bruit, produisant des images fusionnées plus conformes à la perception visuelle humaine par rapport aux autres méthodes.

Conclusion

Cet article propose une méthode de fusion d’images infrarouges et visibles basée sur les modules Transformer et l’apprentissage génératif adversarial. Cette méthode montre des performances exceptionnelles dans les tâches de fusion, ouvrant une nouvelle voie pour la recherche sur la fusion d’images. Les recherches futures exploreront davantage l’application des Transformers dans les tâches de fusion et envisageront de les appliquer à des tâches en aval.

Points forts de l’étude

  1. Proposition d’un nouvel algorithme de fusion : Associe Transformer et apprentissage génératif adversarial, introduisant l’apprentissage adversarial durant l’entraînement pour améliorer la distinction des images.
  2. Combinaison de plusieurs modules : La combinaison des Transformers spatial et inter-canaux permet d’apprendre des relations de fusion globale plus complètes.
  3. Résultats expérimentaux remarquables : Sur plusieurs ensembles de données, la méthode proposée obtient les meilleurs ou les deuxièmes meilleurs scores sur plusieurs indicateurs objectifs.