Modélisation de l'attention visuelle basée sur la théorie de la Gestalt
Contexte
Dans le domaine de la vision par ordinateur, la recherche sur les modèles d’attention visuelle vise à simuler comment le système visuel humain sélectionne les régions d’intérêt dans une image ou une scène naturelle. Le cerveau humain est capable d’identifier rapidement et avec précision les régions saillantes d’une scène visuelle, une capacité qui revêt une importance significative dans des tâches telles que le traitement d’images, la reconnaissance d’objets et la segmentation d’images. Cependant, la détection efficace de multiples objets saillants dans une image reste un défi technique.
La théorie de la Gestalt (Gestalt Theory) est à la base de la théorie moderne de l’apprentissage cognitif, mettant l’accent sur “le tout est plus que la somme de ses parties”, où la similarité (similarity) et la proximité (proximity) sont deux principes importants. Bien que la théorie de la Gestalt fournisse un soutien théorique crucial pour la recherche sur la perception visuelle, son application à la détection de multiples objets saillants pose encore des problèmes techniques. Cette étude propose un modèle de saillance basé sur la théorie de la Gestalt — le modèle de similarité de couleur et de proximité spatiale (CSSP), visant à détecter plus efficacement les multiples objets saillants dans une image en combinant la similarité de couleur et la proximité spatiale.
Source de l’article
Cet article a été co-écrit par Guang-Hai Liu et Jing-Yu Yang, respectivement affiliés à l’École d’ingénierie en informatique de l’Université normale du Guangxi et à l’École des sciences et technologies informatiques de l’Université des sciences et technologies de Nanjing en Chine. L’article a été publié en 2025 dans la revue Cognitive Computation, sous le titre “Modeling Visual Attention Based on Gestalt Theory”. L’article détaille la conception, la mise en œuvre du modèle CSSP et les résultats expérimentaux obtenus sur plusieurs ensembles de données publics.
Processus de recherche et conception expérimentale
1. Conception du modèle
L’idée centrale du modèle CSSP est de détecter les objets saillants en combinant la similarité de couleur et la proximité spatiale. Le processus spécifique comprend les étapes suivantes :
1.1 Segmentation d’image
Tout d’abord, l’algorithme de clustering linéaire itératif simple (SLIC) est utilisé pour segmenter l’image d’entrée en plusieurs régions (superpixels). Le nombre de superpixels est fixé à 30 pour garantir que la taille de chaque région est adaptée à un traitement ultérieur.
1.2 Recherche de région
Basée sur la méthode de l’histogramme des différences de couleur (CDH), la similarité de couleur de chaque région est calculée. La méthode CDH reflète la similarité entre deux régions en calculant la différence de couleur entre elles. Parallèlement, un poids de proximité spatiale (wd) est introduit pour ajuster la distance entre les régions, garantissant que les régions proches sont plus susceptibles d’être considérées comme un tout.
1.3 Calcul du score de saillance
Le modèle CSSP propose deux méthodes de calcul du score de saillance : le score de saillance non contrôlé (USS) et le score de saillance contrôlé (CSS). L’USS est calculé uniquement sur la base de la similarité de couleur et de la proximité spatiale, tandis que le CSS intègre en outre la caractéristique logarithmique de la différence de couleur pour mieux refléter les caractéristiques de perception du système visuel humain.
1.4 Fusion des cartes de saillance
En fusionnant les scores de l’USS et du CSS, la carte de saillance finale est générée. Lors du processus de fusion, la fonction Sigmoid est utilisée pour activer les scores de saillance, réduisant ainsi les impuretés autour des objets saillants et mettant en évidence leurs régions internes.
2. Expériences et résultats
L’étude a évalué le modèle CSSP sur trois ensembles de données publics (ECSSD, MSRA10K et DUT-OMRON) et l’a comparé à plusieurs méthodes existantes de détection de saillance.
2.1 Ensembles de données
- Ensemble de données ECSSD : Contient des images à arrière-plan complexe, présentant un défi élevé pour la détection de saillance.
- Ensemble de données MSRA10K : Contient 10 000 images avec des structures d’arrière-plan simples, généralement avec un seul objet saillant.
- Ensemble de données DUT-OMRON : Contient 5168 images de haute qualité avec des arrière-plans complexes, généralement avec plusieurs objets saillants.
2.2 Métriques d’évaluation
La précision (Precision), le rappel (Recall), le F-measure et l’erreur absolue moyenne (MAE) ont été utilisés comme métriques d’évaluation.
2.3 Résultats expérimentaux
- Ensemble de données ECSSD : Le modèle CSSP a obtenu d’excellentes performances en termes de précision et de F-measure, surpassant significativement les autres méthodes comparées.
- Ensemble de données MSRA10K : La précision du modèle CSSP était légèrement inférieure à celle des méthodes GBR et HS, mais il a obtenu de bons résultats en termes de rappel et de F-measure.
- Ensemble de données DUT-OMRON : Le modèle CSSP a surpassé toutes les méthodes comparées sur toutes les métriques, en particulier dans la gestion de plusieurs objets saillants.
3. Comparaison visuelle de la détection de saillance
Grâce à des expériences de comparaison visuelle, le modèle CSSP a montré une performance exceptionnelle dans le traitement des objets saillants touchant les bords de l’image, réduisant significativement les taches grises à l’intérieur des objets saillants et les impuretés environnantes. Par exemple, lors du traitement d’images contenant plusieurs objets saillants, le modèle CSSP a été capable de détecter avec précision tous les objets saillants, tandis que d’autres méthodes ont présenté des omissions ou des erreurs de détection.
Conclusion et signification
Le modèle CSSP, en combinant la similarité de couleur et la proximité spatiale issues de la théorie de la Gestalt, propose une méthode simple mais efficace pour la détection de saillance. Les résultats expérimentaux montrent que ce modèle excelle dans le traitement des arrière-plans complexes et des multiples objets saillants, surpassant de nombreuses méthodes existantes. Le modèle CSSP est non seulement capable de détecter efficacement les objets saillants, mais il peut également gérer les objets saillants touchant les bords de l’image, ce qui revêt une importance significative dans de nombreuses applications pratiques.
Points forts de la recherche
- Innovation : Le modèle CSSP est le premier à combiner la similarité de couleur et la proximité spatiale de la théorie de la Gestalt, proposant une nouvelle méthode de détection de saillance.
- Efficacité : En introduisant le poids de proximité spatiale et la caractéristique logarithmique de la différence de couleur, le modèle CSSP démontre une robustesse accrue dans la détection des objets saillants.
- Valeur applicative : Les performances exceptionnelles du modèle CSSP sur plusieurs ensembles de données publics indiquent qu’il a un large potentiel d’application dans des domaines pratiques tels que le traitement d’images et la reconnaissance d’objets.
Directions futures de recherche
Bien que le modèle CSSP ait obtenu des résultats significatifs dans la détection de saillance, il présente encore certaines limitations. Par exemple, lors du traitement d’un groupe d’objets saillants, certaines régions saillantes peuvent être omises. Les recherches futures prévoient d’optimiser les performances du modèle en combinant des techniques d’apprentissage profond et d’explorer son potentiel dans davantage d’applications pratiques.
Grâce à cette étude, nous avons non seulement validé la faisabilité de la modélisation de l’attention visuelle basée sur la théorie de la Gestalt, mais nous avons également fourni une nouvelle direction et une nouvelle méthode pour le domaine de la détection de saillance.