Faire avancer la fusion des images hyperspectrales et multispectrales : un réseau de déploiement basée transformateur informée
Réseau de déploiement Transformer basé sur la perception de l’information pour promouvoir la fusion d’images hyperspectrales et multispectrales
Introduction générale
Les images hyperspectrales (Hyperspectral Image, HSI) jouent un rôle crucial dans les applications de télédétection telles que la reconnaissance des matériaux, la classification des images, la détection des cibles et la surveillance environnementale, en raison de leur inclusion d’informations spectrales sur plusieurs bandes. Toutefois, en raison des limitations du matériel des capteurs, il existe un compromis entre la résolution spatiale et la résolution spectrale lors du processus de formation de l’image. Concrètement, les capteurs d’imagerie ne peuvent fournir que des images à informations spectrales riches (HSI à basse résolution, LR-HSI), ou des images à haute résolution spatiale mais à informations spectrales limitées (images multispectrales à haute résolution, HR-MSI). Afin d’obtenir une HSI de haute résolution (HR-HSI), les chercheurs ont proposé une méthode de fusion LR-HSI et HR-MSI, connue sous le nom de fusion MSI-HSI. La fusion MSI-HSI a suscité une large attention dans le traitement des images de télédétection.
Source de l’article
Cet article, intitulé « Advancing Hyperspectral and Multispectral Image Fusion: An Information-aware Transformer-based Unfolding Network », a été publié dans IEE Transactions on Neural Networks and Learning Systems, et est rédigé par Jianqiao Sun, Bo Chen, Ruiying Lu, Ziheng Cheng, Chunhui Qu de l’Université d’Électronique et de Technologie de Xi’an, ainsi que Xin Yuan de l’Université de Westlake. La date de réception de l’article est le 20 juin 2023, celle de révision est le 18 janvier 2024, et celle d’acceptation est le 1er mai 2024.
Processus de recherche
Description détaillée du processus de recherche
Dans la recherche sur le traitement des images hyperspectrales, les méthodes de déploiement profond basées sur les réseaux neuronaux convolutionnels (CNN) ont montré des performances prometteuses. Cependant, en raison du champ réceptif limité des CNN, ces derniers présentent des limitations dans la capture des caractéristiques spatiales à longue distance. De plus, les caractéristiques inhérentes des images d’entrée et de sortie à chaque stade limitent la transmission des caractéristiques, ce qui bride le rendement global. Pour répondre à ce problème, cet article propose une nouvelle sorte de réseau de déploiement basé sur Transformer et conscient de l’information (ITU-Net), destiné à modéliser les dépendances à longue distance et à transmettre plus d’informations à chaque stade. Concrètement, l’ITU-Net utilise des blocs Transformer personnalisés pour apprendre des représentations à la fois dans le domaine spatial et spectral, tout en évitant une complexité quadratique en fonction de la longueur de l’entrée. Pour extraire les caractéristiques spatiales, cet article développe une Attention Linéaire Informative (ITLA) qui transmet des informations de haute efficacité entre les stades adjacents et extrait les caractéristiques contextuelles le long de la dimension spatiale avec une complexité linéaire. De plus, cet article introduit l’apprentissage en domaine spectral dans le réseau à alimentation directe (FFN) pour capturer les modifications des Tokens d’image et réduire l’écart de fréquence.
Conception de l’expérience
Les sujets de recherche comprenaient des ensembles de données hyperspectrales synthétiques et réels. L’expérience comportait les étapes suivantes :
Choix et prétraitement des ensembles de données : Sélection des ensembles de données synthétiques CAVE, Chikusei et Harvard, ainsi que des ensembles de données réels Worldview-3 et Worldview-2. Prétraitement des données synthétiques pour générer des échantillons d’entraînement et de validation.
Extraction des caractéristiques et entraînement du modèle : Utilisation d’un réseau léger pour extraire des caractéristiques spectrales-spatiales externes des LR-HSI et HR-MSI pour fournir des entrées à chaque stade de déploiement. Remplacement des modules FFN conventionnels par des modules d’apprentissage en domaine spectral, introduisant la Transformée de Fourier Discrète (DFT) et la Transformée de Cosinus Discrète (DCT) pour améliorer la capacité de mappage non linéaire. Conception d’un problème d’optimisation et utilisation d’un algorithme de division des variables pour déployer le processus de reconstruction, transformant celui-ci en une structure de réseau afin de réaliser la reconstruction progressive des HR-HSI.
Évaluation de la performance : À travers de nombreuses expériences, évaluation quantitative et qualitative du modèle proposé sur les ensembles de données synthétiques et réels, tout en le comparant avec 17 méthodes de pointe.
Résultats de la recherche
En comparaison avec d’autres méthodes, le modèle de cet article a montré des performances exceptionnelles sur plusieurs ensembles de données, comme suit :
Ensembles de données synthétiques : Sur les ensembles de données CAVE et Chikusei, la méthode proposée a démontré des performances optimales ou très compétitives à différents facteurs d’échelle (4, 8, 16, 32). Sur l’ensemble de données Harvard, le modèle a montré une grande capacité de généralisation en utilisant directement le modèle d’entraînement de l’ensemble de données de CAVE sans ajustement fin.
Ensembles de données réels : Sur les ensembles de données Worldview-3 et Worldview-2, l’ITU-Net a également surpassé les autres méthodes de pointe.
Principales découvertes et conclusions
Conclusion de l’étude
Le réseau de déploiement basé sur Transformer et conscient de l’information (ITU-Net) proposé dans cet article résout efficacement les problèmes de modélisation des dépendances à longue distance et de transmission des caractéristiques dans la fusion HSI et MSI en extrayant des caractéristiques à la fois dans les domaines spatial et spectral et en transmettant des informations de haute efficacité à chaque stade. Les expériences montrent que la méthode proposée présente des performances quantitatives et qualitatives supérieures tant sur des ensembles de données synthétiques que réels. Les résultats de la recherche indiquent que le cadre de déploiement basé sur Transformers non seulement démontre une excellente performance dans la fusion d’images hyperspectrales et multispectrales, mais offre également un soutien technique significatif pour les applications pratiques de télédétection.
Valeur de la recherche
La méthode proposée dans cet article non seulement montre des performances remarquables dans la tâche de fusion des images hyperspectrales et multispectrales, mais également une grande capacité de généralisation. En particulier, l’utilisation de blocs Transformer couplée au cadre de déploiement a considérablement amélioré l’efficacité et la précision de l’extraction des caractéristiques et de la transmission de l’information. Cette approche novatrice fournit de nouvelles perspectives et méthodes pour le traitement des images de télédétection, possédant une grande valeur scientifique et applicative.
Points forts
- Novelté : Introduction d’un mécanisme d’attention linéaire conscient de l’information, préservant les caractéristiques quantitatives traditionnelles tout en améliorant considérablement l’efficacité calculatoire.
- Utilité : Les expériences sur des ensembles de données synthétiques et réels montrent des performances supérieures, validant l’adaptabilité et la généralité étendues de la méthode proposée.
- Innovation technique : Utilisation de modules d’apprentissage en domaine spectral pour améliorer les performances des FFN, combinant Transformers et le cadre de déploiement pour atteindre une plus haute précision avec une complexité calculatoire inférieure.