Utilisation des réseaux neuronaux profonds pour démêler l'information visuelle et sémantique dans la perception et la mémoire humaines

Utilisation des réseaux neuronaux profonds pour distinguer les informations visuelles et sémantiques dans la perception et la mémoire humaines

Introduction

Dans le domaine des sciences cognitives, il y a un intérêt croissant pour la manière dont les humains reconnaissent les personnes et les objets dans le processus de perception et de mémoire. La reconnaissance des personnes et des objets dépend de la correspondance entre les représentations générées par le système perceptuel et celles stockées dans la mémoire. Cependant, ces représentations mentales ne sont pas des copies exactes du monde extérieur, mais des reconstructions par le cerveau. Comprendre le contenu et le processus de cette reconstruction est un défi de longue date. Cet article tente de révéler le contenu des représentations mentales humaines lors de la perception et de la mémoire des visages et des objets familiers en utilisant des réseaux neuronaux profonds (DNN).

Source de l’article

Cet article a été rédigé par Adva Shoham, Sidanéel Daniel Grossbard, Or Patashnik, Daniel Cohen-Or et Galit Yovel, tous issus de l’Université de Tel Aviv. L’article a été publié en ligne le 8 février 2024 dans “Nature Human Behaviour”.

Contexte et objectifs de la recherche

Les représentations mentales humaines sont composées d’informations visuelles et sémantiques. Cependant, distinguer la contribution de ces informations est difficile car elles sont souvent mêlées dans les représentations mentales. Récemment, les réseaux neuronaux profonds entraînés sur des images ou des textes peuvent générer des représentations purement visuelles ou purement sémantiques, offrant une nouvelle méthode pour séparer ces informations. Cette étude vise à utiliser ces réseaux neuronaux pour quantifier la contribution des informations visuelles, visuelles-sémantiques et purement sémantiques dans la perception et la mémoire des stimuli familiers.

Méthodes de recherche

Conception de l’expérience

L’étude a utilisé quatre modèles de réseaux neuronaux : le modèle visuel (VGG-16), le modèle visual-sémantique (CLIP) et le modèle sémantique (SGPT), pour prédire les représentations mentales humaines dans la perception et la mémoire. Les étapes spécifiques de l’expérience sont les suivantes :

  1. Sélection des objets d’étude :

    • Visages : Sélection de 20 personnalités internationales connues, incluant des politiciens et des célébrités.
    • Objets : Sélection de 20 objets familiers.
  2. Entraînement et ajustement des modèles :

    • Modèle visuel (VGG-16) : Entraîné sur le jeu de données VGGFace2, affiné pour 20 identités familières.
    • Modèle visuel-sémantique (CLIP) : Entraînement conjoint sur 400 millions d’images et de descriptions provenant d’internet.
    • Modèle sémantique (SGPT) : Basé sur des algorithmes de traitement du langage naturel, utilisant les descriptions du premier paragraphe de Wikipedia.
  3. Évaluation de la similarité par les participants :

    • Similarité visuelle : Les participants humains donnent des notes de similarité visuelle pour les images de visages et d’objets.
    • Reconstruction mnésique : Rappeler les visages ou les objets à partir de leurs noms et donner des notes de similarité.
  4. Analyse des données et construction géométrique :

    • Calculer la similarité entre les différentes représentations à l’aide de la distance cosinus.
    • Construire une matrice de dissimilarité représentative (RDMs) et utiliser t-SNE pour la visualisation.

Déroulement détaillé de l’expérience

  1. Représentation des visages en perception et mémoire :

    • 20 personnalités internationales connues, politiciens et célébrités.
    • Entraînement et validation du modèle de réseaux neuronaux visuels, extraction des vecteurs de caractéristiques des images de visages et calcul de la similarité.
  2. Représentation des objets en perception et mémoire :

    • Sélection des images des objets, calcul de leur dissimilarité sous les modèles visuel, visuel-sémantique et sémantique.
    • Les participants humains donnent des notes de similarité visuelle pour ces objets dans la mémoire visuelle, et les données sont statistiquement analysées et validées.

Résultats de la recherche

Représentation de la perception et de la mémoire des visages

  1. Haute corrélation entre la perception et la mémoire : La reconstruction de la représentation visuelle générée par les participants en mémoire est fortement corrélée avec leur représentation en perception (r = 0.77, p < 0.001).
  2. Contribution indépendante des informations visuelles et sémantiques :
    • La contribution des informations visuelles est plus grande dans la perception (r = 0.37, t = 11.5, p < 0.001).
    • La contribution des informations sémantiques est significative dans la mémoire (r = 0.41, t = 6.42, p < 0.001).
    • Contribution unique du nouveau modèle (CLIP) : Le modèle visuel-sémantique contribue de manière significative à la fois à la perception et à la mémoire.

Représentation de la perception et de la mémoire des objets

  1. Haute corrélation des objets en perception et en mémoire : Les objets montrent une corrélation élevée entre les phases d’affichage d’image et de rappel (r = 0.78, p < 0.001).
  2. Contribution indépendante des trois types d’information :
    • Contribution des modèles visuel, visuel-sémantique et sémantique dans la mémoire (vgg: r = 0.15, t = 3.01, p = 0.007 ; clip : r = 0.21, t = 10.9, p < 0.001 ; sgpt: r = 0.43, t = 7.43, p < 0.001).

Conclusion et valeur

Conclusion

L’étude a révélé que les informations visuelles, visuelles-sémantiques et sémantiques ont des contributions uniques et complémentaires dans la représentation de la perception et de la mémoire humaines. Les informations visuelles dominent le processus de perception, tandis que les informations sémantiques sont plus importantes dans la reconstruction de la mémoire. De plus, le modèle CLIP a montré une performance unique d’intégration visuelle-sémantique, permettant une meilleure prédiction des représentations mentales humaines, offrant ainsi une nouvelle compréhension des modèles cognitifs.

Signification de l’étude

  • Valeur scientifique : La recherche a révélé les contributions indépendantes et interactives des informations visuelles et sémantiques dans la perception et la mémoire, remettant en question les modèles cognitifs actuels de la reconnaissance des visages et des objets.
  • Valeur appliquée : La fourniture d’algorithmes pour simuler les représentations mentales humaines a des applications potentielles pour améliorer les systèmes intelligents et les programmes de formation cognitive.

Points forts de l’étude

  • Innovation : Première utilisation des DNNs pour séparer et quantifier de manière exhaustive les contributions indépendantes des informations visuelles et sémantiques.
  • Méthodologie : Combinaison de plusieurs modèles pour valider les contributions intégratives des informations multimodales dans les représentations mentales.

Ces découvertes enrichissent non seulement notre compréhension du mécanisme des représentations mentales humaines, mais fournissent également des références pour améliorer les modèles d’intelligence artificielle prédictive du comportement humain. Des recherches supplémentaires peuvent utiliser ces algorithmes pour étudier les représentations mentales dans diverses catégories et domaines, favorisant ainsi le développement et l’intégration continus de l’intelligence générale des ordinateurs et des humains.