Détection d'objets saillants dans des scènes RGB-T en faible lumière via l'exploration des indices spatiaux-fréquentiels

Détection d’objets dans les scènes RGB-T

Détection d’objets saillants dans des scènes RGB-T en faible luminosité grâce à une méthode d’exploration des indices spatio-fréquentiels

La détection des objets saillants (Salient Object Detection, SOD) occupe une place importante dans le domaine de la vision par ordinateur, son principal objectif étant d’identifier les régions ou objets les plus visuellement attrayants dans une image. Bien que les modèles SOD aient réalisé certains progrès dans des environnements d’éclairage normaux au cours des dernières décennies, ils restent confrontés à des défis majeurs dans des conditions de faible luminosité. En faible luminosité, le manque de photons entraîne une perte de détails de l’image, ce qui affecte gravement les performances du SOD. Ce défi est particulièrement important dans des applications pratiques telles que la surveillance intelligente et la conduite autonome.

Ces dernières années, les systèmes RGB-T (images visibles et infrarouges thermiques) ont attiré l’attention de plus en plus de chercheurs en raison de leur invariabilité thermique dans des conditions de faible luminosité. En utilisant des images RGB-T, des chercheurs ont développé certains modèles SOD qui, en intégrant des indices thermiques et visibles, ont quelque peu atténué les problèmes de détection d’objets en faible luminosité. Cependant, la plupart de ces modèles existants se concentrent uniquement sur l’intégration des caractéristiques spatiales, en négligeant les informations de différence de fréquence. Pour répondre à ce problème, une équipe de recherche collaborative a proposé un nouveau modèle SOD, le SFMNet, qui améliore les performances du SOD en faible luminosité en explorant les indices spatio-fréquentiels.

Source et informations sur les auteurs

Cet article est coécrit par Huihui Yue, Jichang Guo, Xiangjun Yin, Yi Zhang et Sida Zheng de l’École de génie électrique et d’information de l’Université de Tianjin, respectivement actifs dans les domaines de la vision par ordinateur, la reconnaissance des formes et l’apprentissage profond. Cet article sera publié dans le journal Neural Networks en 2024. L’article a été reçu, révisé et accepté respectivement les 27 avril 2023, 26 janvier 2024 et 21 mai 2024.

Contexte et problématique de la recherche

Les modèles SOD RGB-T existants voient leurs performances en faible luminosité limitées par l’intégration des caractéristiques spatiales, sans pouvoir exploiter pleinement les informations du domaine fréquentiel. Selon les recherches, la capture des caractéristiques du domaine fréquentiel peut conserver des informations efficaces sur la distribution des objets. Par conséquent, en tenant compte de ces lacunes, l’équipe de recherche a proposé un nouveau modèle pour améliorer les performances du SOD en explorant les indices spatio-fréquentiels.

Processus de recherche

Module d’exploration des caractéristiques spatio-fréquentielles (SFFE)

Pour capturer à la fois les indices spatiaux et fréquentiels, les chercheurs ont conçu un module SFFE qui sépare les caractéristiques spatiales et fréquentielles des images RGB et infrarouges thermiques et sélectionne de manière adaptive les indices de haute et basse fréquence. Concrètement, grâce à la stratégie de décomposition fréquentielle et de sélection dynamique des caractéristiques, les informations de haute et basse fréquence sont séparées et sélectionnées.

  1. Décomposition fréquentielle

    • L’équipe de recherche a d’abord utilisé la transformation en cosinus discrète (Discrete Cosine Transform, DCT) pour extraire les résultats du domaine fréquentiel, puis a utilisé une fonction de seuil pour extraire les informations de haute et basse fréquence des cartes de caractéristiques.
  2. Sélection dynamique adaptative des caractéristiques

    • Sélectionner les informations de haute et basse fréquence les plus favorables en fonction des besoins et renforcer les caractéristiques auxiliaires grâce à un mécanisme d’attention canal-spatial (Channel-Spatial Attention, CSA) pour générer les caractéristiques du domaine fréquentiel de manière progressive.

Module d’interaction des caractéristiques spatio-fréquentielles (SFFI)

Le module SFFI vise à intégrer les informations spatio-fréquentielles des images RGB et thermiques en intégrant progressivement les informations inter-modales et trans-domaines pour générer des prédictions de saillance précises.

  1. Phase duale intermodale

    • Fusionner les caractéristiques multi-modales du domaine spatial et fréquentiel, y compris la fusion multi-échelle et multi-groupe. Les caractéristiques multi-modales à la même échelle au sein de chaque canal sont fusionnées à travers un noyau de convolution, puis fusionnées de manière adaptive pour obtenir le résultat final.
  2. Phase de fusion multi-domaine

    • Fusionner les informations du domaine spatial et fréquentiel à chaque échelle de caractéristiques, capturer pleinement les informations multi-domaines et générer la sortie finale en fusionnant les caractéristiques de la précédente échelle, ainsi que celles du premier plan et de l’arrière-plan.

Résultats expérimentaux

Pour valider le nouveau modèle, l’équipe de recherche a constitué le premier ensemble de données SOD pour des scènes RGB-T en faible luminosité et a mené des expériences exhaustives. Les résultats expérimentaux montrent que SFMNet surpasse significativement les modèles existants en termes de précision de détection en faible luminosité. Plus précisément, sur différents ensembles de données, SFMNet a obtenu la précision la plus élevée sur plusieurs indicateurs d’évaluation tels que la valeur maximale de Fβ et l’erreur absolue moyenne.

  1. Évaluation quantitative

    • En comparaison avec 13 méthodes SOD de pointe existantes, SFMNet a montré des performances exceptionnelles sur les cinq indicateurs suivants : la courbe PR, la valeur maximale de Fβ, la mesure E, la similarité structurelle et l’erreur absolue moyenne.
  2. Évaluation qualitative

    • Dans divers environnements de faible luminosité avec des arrière-plans complexes, des objets de tailles variées et des bords encombrés, SFMNet a démontré une capacité supérieure de détection d’objets, avec des prédictions de saillance plus précises et complètes.
  3. Analyse de complexité

    • Bien que SFMNet ait un nombre moyen de paramètres, il se distingue par sa complexité en termes de calcul, affichant une efficacité de calcul élevée.

Contributions et points forts

  1. Modèle innovant

    • Propose un nouveau modèle SOD RGB-T, le SFMNet, qui réalise une détection d’objets de haute précision en faible luminosité en explorant les indices spatio-fréquentiels.
  2. Nouveau design de module

    • Conception des modules SFFE et SFFI, respectivement destinés à explorer les caractéristiques spatio-fréquentielles et à intégrer les informations trans-domaines.
  3. Nouveau jeu de données

    • Construction du premier ensemble de données SOD RGB-T en faible luminosité, fournissant une référence pour les études pertinentes.

Conclusion

Cette recherche apporte de nouvelles idées et méthodes pour améliorer la détection des objets saillants en faible luminosité, en introduisant des indices fréquentiels et une sélection dynamique adaptative des caractéristiques, augmentant ainsi significativement les performances de détection. SFMNet a non seulement une grande valeur scientifique, mais il peut aussi fournir un soutien efficace dans des applications industrielles telles que la surveillance intelligente et la prévention des catastrophes. Les futures recherches pourront se concentrer sur l’optimisation des performances du modèle dans des scènes extrêmement complexes, renforçant sa robustesse et son utilité pratique.

Cette étude apporte une nouvelle perspective et des avancées dans le domaine de la détection des objets saillants, avec un espoir que davantage de recherches et d’applications en bénéficient à l’avenir.