Suppression induite par la parole pendant les dialogues naturels

Lors des échanges interpersonnels, le cerveau traite différemment la voix de soi-même et celle des autres, phénomène appelé mécanisme de suppression induite par la voix (Speech-Induced Suppression, SIS). Ce mécanisme implique une copie efférente motrice dans la voie perceptuelle, agissant comme un “écho” pour filtrer les signaux générés en interne, évitant ainsi de confondre les stimuli externes. Dans le domaine du traitement de la parole, le SIS se manifeste par une suppression spécifique de la voix produite par soi-même, ce qui est d’une importance capitale pour la recherche sur les hallucinations auditives dans des pathologies telles que la schizophrénie. Bien que des expériences sur des syllabes isolées aient largement étudié le SIS, la compréhension du mécanisme SIS dans des dialogues naturels continus reste insuffisante.

Description des sources

Cette recherche a été menée par Joaquin E. Gonzalez et ses collaborateurs, provenant du laboratoire d’intelligence artificielle de l’Université de Buenos Aires, de l’Institut de recherche sur les signaux, systèmes et intelligence computationnelle, de l’Institut de recherche en mathématiques appliquées, entre autres. L’article a été publié dans la revue « Communications Biology » et explore les différences de représentation de la voix de soi-même et des autres dans le cerveau, en particulier l’effet SIS dans des conversations naturelles.

Déroulement détaillé de l’étude

a) Processus de recherche

L’étude a utilisé l’électroencéphalographie (EEG) et des enregistrements vocaux de haute qualité pour analyser la parole dans des conversations naturelles non scénarisées. Le processus s’est déroulé en plusieurs étapes :

  1. Conception de l’expérience : Les participants, par paires, ont effectué un jeu d’objets, où chaque duo recevait des tâches sur écran et devait communiquer oralement pour placer les objets à des positions spécifiques sur l’écran.

  2. Collecte des données : L’activité cérébrale des participants et leur voix ont été enregistrées simultanément avec une EEG haute densité de 128 électrodes. Chaque participant a porté un microphone directionnel pour enregistrer sa voix.

  3. Prétraitement des signaux : Les signaux EEG collectés ont été filtrés et une analyse en composantes indépendantes (ICA) a été réalisée pour éliminer les artefacts oculaires et musculaires.

  4. Extraction des caractéristiques : Des caractéristiques telles que les spectrogrammes de Mel et l’enveloppe des signaux ont été extraites des signaux vocaux, servant ainsi d’entrées pour l’entraînement du modèle.

  5. Construction du modèle de codage : Un modèle de codage a été entraîné pour prédire les caractéristiques de réponse des signaux EEG, et les performances du modèle ont été validées à partir de l’activité cérébrale des auditeurs pendant les tâches de coopération.

  6. Analyse des phases de dialogue : L’effet du SIS a été analysé dans diverses conditions pendant les conversations, incluant la parole uniquement des autres, la parole de soi-même, et la parole simultanée des deux parties, en étudiant les réactions des signaux EEG.

b) Principaux résultats de la recherche

  1. Représentation cérébrale des caractéristiques vocales : Le modèle a réussi à reproduire de manière significative la représentation de la voix des autres dans le cerveau, montrant des performances de prédiction élevées pour des caractéristiques acoustiques telles que la hauteur et les bandes de fréquences. Le coefficient de corrélation moyen a atteint 0,26 pour les enveloppes et 0,37 pour les spectrogrammes dans la bande de fréquence θ, valeurs nettement supérieures aux études antérieures.

  2. Effet de suppression de la voix de soi-même : Dans des conversations naturelles, la production de voix de soi-même n’a pas provoqué de réaction cérébrale notable, montrant un effet SIS significatif. La réponse à sa propre voix était similaire à un état de silence, avec une réaction EEG significative uniquement pendant l’écoute de la voix des autres.

c) Conclusion de la recherche et signification

La recherche montre que le SIS existe et est même plus fort dans des conversations naturelles, soulignant la différence dans le traitement par le cerveau des stimuli vocaux internes et externes. Cette méthode propose une compréhension plus approfondie des mécanismes correspondants en contexte naturel, présentant une valeur de référence importante pour la recherche en pathologie psychiatrique, les modèles de traitement de la parole et les interfaces utilisateur vocales.

d) Points forts de la recherche

  1. Effet SIS dans des conversations naturelles : C’est la première fois que l’effet SIS est validé dans un contexte de dialogue naturel, offrant de nouvelles perspectives sur la manière dont le cerveau distingue la voix de soi-même des voix externes.

  2. Performance prédictive élevée du modèle : Le modèle de codage a montré des performances de prédiction des signaux EEG en situation de parole naturelle supérieure à celles des conditions expérimentales antérieures, confirmant l’efficacité de cette méthode dans des contextes complexes.

  3. Validation indépendante par synchronisation de phase EEG : L’analyse des valeurs de verrouillage de phase (PLV) a également testé les résultats SIS, confirmant de manière cohérente que la voix de soi-même ne produisait pas de signaux EEG synchrones significatifs en condition de dialogue naturel.

e) Autres informations utiles

Le modèle de codage proposé peut être étendu pour l’analyse EEG d’autres tâches continues non restrictives, adapté à des scénarios de recherche sur le traitement du langage naturel plus complexes, offrant une méthodologie exemplaire pour les futures recherches.

Conclusion

Cette étude, grâce à une conception expérimentale détaillée et une méthodologie innovante de modélisation de codage, a révélé pour la première fois l’effet SIS dans des conversations naturelles, fournissant de nouvelles perspectives pour la compréhension des mécanismes cérébraux dans le traitement des signaux vocaux naturels. Les résultats de la recherche élargissent non seulement les perspectives d’application des neurosciences en contexte naturel, mais facilitent également des recherches futures en neurocognition et linguistique basées sur le dialogue naturel.