Vers une évaluation transparente de l'esthétique des images profondes avec des descripteurs de contenu basés sur des étiquettes

Évaluation esthétique des images profondes transparentes basée sur la description du contenu des étiquettes

Contexte académique

Avec la popularité croissante des plateformes de médias sociaux comme Instagram et Flickr, la demande pour les modèles d’évaluation esthétique des images (Image Aesthetics Assessment, IAA) augmente. Ces modèles peuvent non seulement aider les fournisseurs de services de réseaux sociaux à optimiser le classement ou les recommandations des images, mais également aider les utilisateurs ordinaires à gérer leurs albums, choisir les meilleures photos, et même fournir des conseils lors de la prise de vue et de l’édition. Cependant, construire un modèle IAA robuste reste un défi en raison de la complexité de l’esthétique des images, qui inclut plusieurs facteurs comme les objets et les techniques photographiques.

Motivation de l’étude

Structure du réseau neuronal pour l’évaluation esthétique des images Bien que les méthodes d’apprentissage profond actuelles aient montré d’excellentes performances en IAA, leurs mécanismes internes restent flous. La plupart des recherches prédisent l’esthétique des images par l’apprentissage implicite des caractéristiques sémantiques, mais ces méthodes ne parviennent pas à expliquer directement ce que représentent ces caractéristiques. L’objectif central de cet article est de créer un cadre IAA plus transparent, en introduisant des caractéristiques sémantiques explicables, pour décrire le contenu des images avec des étiquettes lisibles par les humains, et ainsi construire un modèle IAA basé sur des descriptions explicites.

Origine de l’étude

Cet article a été coécrit par Jingwen Hou (Université Technologique de Nanyang), Weisi Lin (Université Technologique de Nanyang), Yuming Fang (Université des Finances et de l’Économie du Jiangxi), Haoning Wu (S-Lab de l’Université Technologique de Nanyang), Chaofeng Chen (S-Lab de l’Université Technologique de Nanyang), Liang Liao (S-Lab de l’Université Technologique de Nanyang) et Weide Liu (Agence pour la Science, la Technologie et la Recherche de Singapour), et a été accepté pour publication dans la revue IEEE Transactions on Image Processing.

Processus de recherche

Processus de correspondance explicite

La recherche propose d’abord un processus de correspondance explicite, en générant des descripteurs de contenu basés sur les étiquettes (Tag-based Content Descriptors, TCD) par le biais d’étiquettes prédéfinies. Les étapes spécifiques comprennent :

  1. Sélection et définition des étiquettes : Sélection de deux ensembles d’étiquettes prédéfinies, les étiquettes liées aux objets et les étiquettes liées aux techniques photographiques.
  2. Génération des caractéristiques : Utilisation de l’encodeur visuel et de l’encodeur de texte du modèle CLIP pour encoder les images et les étiquettes de texte en caractéristiques visuelles et en caractéristiques textuelles.
  3. Calcul de la similarité : Calcul de la similarité entre les caractéristiques visuelles et les caractéristiques textuelles pour générer des descripteurs de contenu basés sur les étiquettes (TCD).

Pour vérifier les performances du générateur, l’équipe de recherche a annoté 5101 images et créé un ensemble de données d’étiquettes liées à la photographie pour la validation.

Processus de correspondance implicite

Étant donné que les étiquettes prédéfinies peuvent ne pas couvrir complètement tout le contenu de l’image, la recherche propose ensuite un processus de correspondance implicite pour décrire le contenu des images qui ne peut être couvert par les étiquettes prédéfinies. Les étapes spécifiques comprennent :

  1. Définition des étiquettes implicites : Supposer qu’il existe un ensemble d’étiquettes implicites pour décrire le contenu de haut et bas niveau, respectivement les étiquettes implicites de haut niveau (High-level Implicit Tags, HIT) et les étiquettes implicites de bas niveau (Low-level Implicit Tags, LIT).
  2. Processus d’optimisation : Obtenir directement les caractéristiques textuelles des étiquettes implicites par un processus d’optimisation basé sur l’objectif IAA.
  3. Contrainte de cohérence : Pour que les étiquettes implicites et explicites décrivent différents modes sémantiques, introduire une contrainte de cohérence afin d’encourager l’indépendance mutuelle des caractéristiques des étiquettes différentes.

Algorithme et modèle

Les caractéristiques TCD générées par les deux processus de correspondance ci-dessus sont utilisées pour entraîner un modèle de perceptron multicouche (MLP) simple pour l’IAA. Les objectifs d’optimisation incluent la minimisation de l’erreur entre les prédictions et les étiquettes esthétiques réelles, ainsi que la contrainte de cohérence entre les caractéristiques.

Principaux résultats expérimentaux

  1. Processus de correspondance explicite unique : L’utilisation seulement des TCD générées par les étiquettes prédéfinies a permis d’obtenir un coefficient de corrélation de rang de Spearman (SRCC) de 0.767, comparable à la plupart des méthodes actuelles de pointe.
  2. Processus de correspondance explicite + implicite : En intégrant les composants hautement pertinents générés par le processus de correspondance implicite dans le TCD, les performances du modèle IAA ont considérablement augmenté avec un SRCC de 0.817, dépassant de loin les méthodes existantes.

Conclusions et valeur de la recherche

Les recherches montrent que l’introduction de descripteurs de contenu basés sur des étiquettes lisibles par les humains (TCD) peut améliorer de manière significative la transparence et les performances de l’évaluation esthétique des images. Plus précisément, cette étude a réalisé les percées suivantes :

  1. Interprétation transparente : Pour la première fois dans l’évaluation esthétique des images, l’utilisation de caractéristiques textuelles lisibles par les humains, décrivant le contenu des images par des étiquettes définies explicitement, améliore la transparence du modèle.
  2. Amélioration des performances : L’introduction du processus de correspondance implicite a davantage amélioré la capacité d’expression des TCD, augmentant significativement les performances du modèle IAA.
  3. Contribution aux données : Cette étude fournit également le premier ensemble de données d’étiquettes liées à la photographie, promouvant grandement les avancées dans la recherche sur les descripteurs de contenu basés sur les étiquettes.

Points forts de la recherche

  1. Cadre de deep learning transparent : Cet article a construit un cadre IAA transparent, réalisant l’évaluation esthétique des images du point de vue d’une description explicite du contenu des images, rendant l’interprétation des caractéristiques sémantiques plus intuitive.
  2. Amélioration complète des performances : En combinant les processus de correspondance explicite et implicite, le modèle IAA non seulement améliore les performances mais maintient une haute explicabilité, bénéfique pour les recherches futures.
  3. Ensemble de données innovant : L’ensemble de données d’étiquettes liées à la photographie aide à vérifier davantage et à appliquer le potentiel des générateurs de TCD.

Perspectives et significations de l’application

À travers des méthodes d’évaluation esthétique des images transparentes et efficaces, cet article fournit des solutions innovantes pour la gestion future des médias sociaux, la recherche d’images et l’optimisation des systèmes de recommandation. Cela améliore non seulement le niveau d’intelligence du traitement des images, mais fournit également des conseils scientifiques aux utilisateurs ordinaires dans la gestion et l’édition d’images. La percée significative de cet article dans la transparence et la performance de l’évaluation esthétique des images ouvre de nouvelles directions pour les futures recherches et applications.