Traitement des erreurs de prédiction et affûtage de l'information attendue
Rapport scientifique
Introduction
La perception et le traitement neural des informations sensorielles sont fortement influencés par les attentes a priori. La perception n’est pas seulement une réception passive, mais un processus déductif actif qui combine les informations sensorielles existantes avec les informations a priori obtenues à partir de l’expérience passée et de la situation actuelle. Cette combinaison d’informations peut prendre différentes formes : l’une se concentre sur les entrées anormales, c’est-à-dire le traitement des signaux d’erreur de prédiction (Prediction Error, PE) ; l’autre est une représentation affinée réalisée par l’amplification des informations attendues. Cette étude examine la manifestation de ces deux mécanismes dans la perception des visages.
Origine de l’étude
Cette étude a été menée par Annika Garlichs et Helen Blank du Département des Neurosciences Systémiques du Centre Médical Universitaire Hamburg-Eppendorf en Allemagne. L’article a été publié dans le numéro d’avril 2024 de la revue Nature Communications.
Procédure de recherche et méthodes
Conception de la recherche et étapes
Conception de l’expérience : l’étude est basée sur des données obtenues par imagerie par résonance magnétique fonctionnelle (fMRI), combinées à la modélisation computationnelle par deep learning (DCNN). Les participants apprennent d’abord à associer des images de scènes à des images de visage qui leur sont présentées par la suite, incluant quatre visages masculins différents. Ces visages ont été déformés pour créer des visages ambigus, introduisant de l’incertitude dans la reconnaissance des visages.
Processus expérimental : l’expérience est divisée en quatre parties, la première consiste en une calibration individuelle des images de visage, la deuxième en une formation associative, la troisième en l’expérience principale de fMRI, et la dernière en une expérience de localisation fonctionnelle. Dans l’expérience principale, les participants sont invités à appuyer sur un bouton avec leur main droite pour indiquer l’identité des visages qu’ils reconnaissent.
Analyse de contraste multiple : dans l’analyse des données, une analyse de contraste multiple de différentes régions cérébrales est utilisée pour distinguer entre PE et représentation affinée. Les matrices de dissimilarité des représentations neurales (RDM) sous différentes conditions expérimentales sont comparées et optimisées avec des modèles d’apprentissage profond à convolutions (DCNN), tels que vgg-face, vgg-16 et resnet50, pour interpréter les changements de représentation des visages.
Analyse de données univariée et multivariée : une analyse univariée est utilisée pour identifier les différences d’activation cérébrale globale entre les visages attendus et inattendus, en particulier dans les zones sensibles au visage, comme la région occipitale du visage (OFA), le gyrus fusiforme du visage (FFA) et le lobe temporal antérieur (ATL). En outre, une analyse de la similarité des représentations en fMRI multivariée (RSA) et une modélisation computationnelle sont utilisées pour identifier les mécanismes de traitement de l’information dans différentes régions du cerveau.
Détails de la procédure de recherche
Calibration individuelle de la déformation des visages : à l’aide du programme Facegen, quatre visages masculins différents ont d’abord été créés, leurs caractéristiques faciales ont été ajustées pour montrer des différences significatives en termes de forme, de couleur et de position. Ces visages ont été utilisés pour effectuer une calibration individuelle de la déformation du visage pour les participants, afin de déterminer le seuil de perception individuel pour les visages 50⁄50 déformés.
Formation associative : les participants ont appris à associer quatre images de scène à quatre images de visage, et après la formation, une image de scène a été montrée d’abord, puis une image de visage attendue, inattendue ou ambiguë a été montrée lors de l’expérience en fMRI. Les participants doivent choisir le visage qu’ils reconnaissent en fonction d’un indicateur.
Expérience d’imagerie par résonance magnétique fonctionnelle (fMRI) : lors de l’observation et de la reconnaissance des images de visage, l’activité cérébrale des participants a été enregistrée par fMRI. Une analyse de la similarité des représentations en fMRI multivariée (RSA) a été effectuée sur les visages ambigus, et un modèle de deep learning de type vgg-face a été utilisé pour extraire les représentations neuronales du traitement de l’information.
Génération de modèles hypothétiques : des matrices hypothétiques de dissimilarité des représentations (RDM) ont été générées à partir des données d’activation des couches du réseau neuronal (par exemple, les couches pool4 et pool5 de vgg-face), et comparées aux données neuronales pour détecter le rôle des mécanismes de PE et d’affinage dans la reconnaissance des visages.
Résultats principaux
Effet d’assimilation : les données comportementales montrent que le temps de réaction à la reconnaissance de visages attendus est plus court (Figure 3b), et que la fréquence de reconnaissance de visages ambigus comme visages attendus est plus élevée (Figure 3a), montrant un effet d’assimilation distinct.
Diminution de l’activation en fMRI : l’activation par fMRI pour les visages attendus est significativement réduite par rapport aux visages inattendus, en particulier dans les régions postérieures du gyrus fusiforme (pFFA) et les gyrus temporaux moyen et inférieur (ITG/MTG) (Figure 4).
PE et représentation affinée : les résultats de la RSA montrent que le mécanisme de traitement de PE est présent tout au long de la hiérarchie de traitement des visages (de l’OFA au pFFA jusqu’à l’ATL) (Figure 4a, d-f), et qu’il y a des preuves de représentation affinée dans la zone précoce de traitement des visages OFA (Figure 4b).
Conclusion et signification
Cette étude a révélé les mécanismes neuronaux de représentation de la perception des visages en fonction du contexte des attentes. En combinant la fMRI multivariée avec l’analyse des réseaux neuronaux profonds, nous déduisons les conclusions suivantes : 1. L’importance de l’erreur de prédiction dans le traitement des visages : dans toute la hiérarchie de traitement des visages, de la région occipitale du visage (OFA), par le gyrus fusiforme du visage (FFA) jusqu’au lobe temporal antérieur (ATL), le traitement de l’erreur de prédiction domine.
La présence d’une représentation affinée : il a été trouvé des preuves de représentation affinée dans les premières étapes du traitement des visages (par exemple, OFA).
Comment le cerveau intègre les connaissances a priori et les entrées sensorielles : cette étude fournit des preuves soutenant le mécanisme de traitement prédictif dans le cerveau qui intègre les connaissances a priori et les entrées sensorielles, ce qui affecte notre perception des visages.
Points forts de l’étude
- Analyse multivariée différenciant le PE et le mécanisme d’affinage : grâce à la combinaison de la fMRI multivariée et du modèle d’activation des réseaux neuronaux profonds, il a réussi à distinguer le traitement de l’erreur de prédiction et la représentation affinée, offrant une nouvelle compréhension dans le domaine de la perception des visages.
- Conception expérimentale novatrice : cette étude, en utilisant des visages ambigus et une formation associative aux scènes, a permis de mesurer précisément les différences de représentation neuronale dans un cadre contrôlé.
Informations supplémentaires
- Précision et reproductibilité de la méthode : en utilisant des réseaux neuronaux profonds avancés (comme vgg-face, vgg-16 et resnet50) pour simuler et analyser le mécanisme de traitement des visages par le cerveau, les résultats montrent que le traitement de l’erreur de prédiction et la représentation affinée peuvent coexister, améliorant notre compréhension des mécanismes de traitement des informations visuelles par le cerveau.
- Futures orientations de recherche : les recherches futures pourraient s’interroger sur le lien entre ces représentations et les mécanismes de traitement de l’information à différents niveaux du cerveau, notamment dans le cadre d’études de résolution spatiale plus élevée.
Cette étude fournit une compréhension approfondie de la façon dont le cerveau utilise les mécanismes de prédiction et d’affinage pour intégrer les connaissances antérieures et traiter les informations sur les visages, soulignant le rôle et l’importance de ces mécanismes dans le processus de perception.