Amélioration perceptuelle sous-marine heuristique avec apprentissage collaboratif sémantique

Contexte académique et problématique

Les images sous-marines ont une valeur importante dans des domaines tels que l’exploration océanique, la robotique sous-marine et l’identification des espèces marines. Cependant, en raison de la réfraction et de l’absorption de la lumière par l’eau, les images sous-marines souffrent généralement de problèmes tels qu’un faible contraste et une distorsion des couleurs, ce qui affecte gravement la précision des tâches de perception ultérieures (comme la détection d’objets, la segmentation sémantique, etc.). Les méthodes existantes d’amélioration des images sous-marines se concentrent principalement sur l’amélioration de la qualité visuelle, tout en négligeant l’efficacité pratique des images améliorées dans les tâches ultérieures. Par conséquent, trouver un équilibre entre l’amélioration de la qualité visuelle et les applications pratiques est devenu un défi majeur dans la recherche actuelle.

Pour résoudre ce problème, cet article propose une méthode d’amélioration de la perception sous-marine basée sur un réseau réversible heuristique (HUPE). Cette méthode permet non seulement d’améliorer la qualité visuelle des images sous-marines, mais aussi d’extraire des caractéristiques sémantiques orientées vers les tâches grâce à un module d’apprentissage collaboratif sémantique, afin de mieux servir les tâches de perception ultérieures.

Source de l’article et informations sur les auteurs

Cet article a été co-écrit par Zengxi Zhang, Zhiying Jiang, Long Ma, Jinyuan Liu, Xin Fan et Risheng Liu, provenant respectivement de l’École d’ingénierie logicielle de l’Université de technologie de Dalian, de l’École des sciences et technologies de l’information de l’Université maritime de Dalian et du Laboratoire Pazhou (Huangpu). L’article a été accepté le 26 novembre 2024 et publié dans la revue International Journal of Computer Vision.

Processus de recherche et méthodologie

1. Réseau réversible heuristique (Heuristic Invertible Network, HIN)

L’une des innovations centrales de cet article est l’introduction d’un réseau réversible heuristique, qui établit une cartographie bidirectionnelle entre les images sous-marines et leurs versions claires, permettant ainsi un processus d’amélioration préservant les informations. Plus précisément, le réseau transforme les images sous-marines en images améliorées via une cartographie directe, tandis que la cartographie inverse réduit les artefacts et prévient la perte d’information grâce à des contraintes. De plus, le réseau intègre des informations préalables heuristiques (telles que la profondeur et le gradient) pour améliorer sa capacité à s’adapter à des environnements sous-marins complexes.

1.1 Bloc réversible hybride (Hybrid Invertible Block, HIB)

Le bloc réversible hybride est le composant central du réseau réversible heuristique, responsable de l’intégration des informations préalables heuristiques dans le processus d’amélioration. Chaque HIB est composé de plusieurs opérations, notamment ActNorm, la convolution réversible 1×1, l’injecteur d’informations préalables heuristiques, la couche de couplage affine sensible à la fréquence et les opérations d’expansion/compression des caractéristiques. Grâce à ces opérations, le réseau peut caractériser simultanément les relations intrinsèques entre les images sous-marines et leurs versions claires dans les domaines spatial et fréquentiel.

1.2 Couche de couplage affine sensible à la fréquence (Frequency-Aware Affine Coupling)

Pour améliorer la capacité de transformation du réseau, cet article propose une couche de couplage affine sensible à la fréquence. Cette couche transforme l’image d’entrée du domaine spatial au domaine fréquentiel via la transformée de Fourier, traitant séparément les informations de phase et d’amplitude pour mieux capturer les caractéristiques sémantiques et stylistiques de l’image.

2. Module d’apprentissage collaboratif sémantique (Semantic Collaborative Learning Module, SCL)

Pour réduire l’écart entre les tâches d’amélioration visuelle et les tâches ultérieures, cet article introduit un module d’apprentissage collaboratif sémantique. Ce module intègre un générateur de méta-caractéristiques et un bloc de transition de caractéristiques entre le réseau d’amélioration et le réseau de tâches ultérieures, permettant un apprentissage collaboratif au niveau des caractéristiques. De cette manière, le réseau d’amélioration peut non seulement générer des images visuellement satisfaisantes, mais aussi extraire davantage d’informations sémantiques de haut niveau.

2.1 Générateur de méta-caractéristiques (Meta-Feature Generator, MFG)

Le générateur de méta-caractéristiques génère des méta-caractéristiques à partir des caractéristiques orientées vers la tâche et des caractéristiques améliorées, guidant ainsi le réseau d’amélioration pour extraire davantage d’informations sémantiques.

2.2 Bloc de transition de caractéristiques (Feature Transition Block, FTB)

Le bloc de transition de caractéristiques transforme les méta-caractéristiques en caractéristiques améliorées, optimisant ainsi la sortie du réseau d’amélioration grâce à la génération de ponts de caractéristiques.

3. Fonctions de perte

Cet article utilise plusieurs fonctions de perte pendant l’entraînement, notamment la perte de guidage (Guide Loss, Lg), la perte d’amélioration (Enhancement Loss, Le) et la perte de tâche (Task Loss, Lt). La perte de guidage mesure l’effet des méta-caractéristiques sur le réseau d’amélioration, tandis que la perte d’amélioration utilise l’apprentissage contrastif, la perte de fréquence et les contraintes bilatérales pour assurer la similarité entre les images améliorées et les images de référence. La perte de tâche est utilisée pour optimiser les performances des tâches de perception spécifiques (comme la détection d’objets et la segmentation sémantique).

Résultats expérimentaux et analyse

1. Effets d’amélioration des images sous-marines

Cet article a mené des expériences approfondies sur plusieurs ensembles de données publics (comme UIEBD, UCCS, U45 et EUVP) pour valider l’efficacité de la méthode HUPE. Les résultats expérimentaux montrent que HUPE surpasse les méthodes les plus avancées en termes de qualité visuelle et de mesures quantitatives (telles que PSNR, SSIM, UCIQE, UIQM et CEIQ). En particulier, HUPE excelle dans la correction des couleurs et la restauration du contraste, réduisant efficacement les distorsions de couleur et les artefacts dans les images sous-marines.

2. Performances des tâches de perception ultérieures

Pour valider l’applicabilité de HUPE dans les tâches de perception ultérieures, cet article a mené des expériences sur des tâches de détection d’objets et de segmentation sémantique. Les résultats expérimentaux montrent que les images améliorées générées par HUPE offrent des performances exceptionnelles dans ces tâches, améliorant significativement la précision de la détection et de la segmentation. En particulier, dans des environnements sous-marins complexes, HUPE peut extraire efficacement des informations sémantiques, servant ainsi mieux les tâches ultérieures.

Conclusion et signification

Cet article propose une méthode d’amélioration de la perception sous-marine basée sur un réseau réversible heuristique (HUPE), qui atteint un double objectif d’amélioration de la qualité visuelle et d’extraction de caractéristiques sémantiques orientées vers les tâches grâce à l’introduction d’une transformation réversible préservant les informations et d’un module d’apprentissage collaboratif sémantique. Les résultats expérimentaux montrent que HUPE surpasse non seulement les méthodes existantes en termes d’effets d’amélioration visuelle, mais améliore également significativement les performances des tâches de perception ultérieures. Cette méthode offre de nouvelles perspectives dans le domaine du traitement des images sous-marines et présente une valeur scientifique et applicative importante.

Points forts de la recherche

  1. Réseau réversible préservant les informations : En établissant une cartographie bidirectionnelle entre les images sous-marines et leurs versions claires, HUPE peut préserver les informations clés pendant le processus d’amélioration, réduisant ainsi les artefacts et la perte d’information.
  2. Informations préalables heuristiques : En intégrant des informations de profondeur et de gradient, HUPE peut mieux s’adapter à des environnements sous-marins complexes, améliorant la robustesse du réseau.
  3. Module d’apprentissage collaboratif sémantique : Grâce à un apprentissage collaboratif au niveau des caractéristiques, HUPE peut non seulement générer des images visuellement satisfaisantes, mais aussi extraire des informations sémantiques orientées vers les tâches, servant ainsi mieux les tâches de perception ultérieures.
  4. Validation expérimentale étendue : HUPE a été testé sur plusieurs ensembles de données publics, validant sa supériorité dans l’amélioration visuelle et les tâches de perception ultérieures.