Réseau d'apprentissage de la structure du graphe guidé par l'attention pour la détection de l'attention auditive activée par EEG
Application du réseau d’apprentissage de structure de graphe guidée par l’attention pour la détection de l’attention auditive basée sur l’EEG
Contexte académique
L’«effet cocktail party» décrit la capacité du cerveau humain à se concentrer sélectivement sur un locuteur et à ignorer les autres dans un environnement multi-locuteurs. Cependant, cette situation représente un défi majeur pour les personnes malentendantes. Bien que les prothèses auditives modernes telles que les aides auditives et les implants cochléaires soient efficaces pour la réduction du bruit, elles ne peuvent généralement pas distinguer le signal sur lequel l’auditeur doit se concentrer. La tâche de détection de l’attention auditive (AAD) résout ce problème en extrayant directement du cerveau les informations liées à l’attention. La recherche en neurosciences a montré que les techniques d’enregistrement neuronal non invasives, comme l’électroencéphalographie (EEG), ont un énorme potentiel pour le décodage de l’attention auditive. Pour résoudre le problème du décodage des signaux EEG, les chercheurs ont développé diverses méthodes pour interpréter les signaux EEG et en déduire l’attention, ajustant ainsi les performances des aides auditives.
Source du document et informations sur les auteurs
Cet article intitulé « Attention-guided graph structure learning network for EEG-enabled auditory attention detection » a été rédigé par Xianzhang Zeng, Siqi Cai et Longhan Xie, respectivement affiliés au Département de génie électrique et informatique de la Southern University of Science and Technology à Guangzhou, Guangdong, Chine, et de la National University de Singapour. L’article a été publié dans le Journal of Neural Engineering en 2024 et décrit en détail comment utiliser les signaux EEG pour la détection de l’attention auditive.
Processus de recherche détaillé
Flux de travail
Cette recherche a proposé un nouveau réseau d’apprentissage de structure de graphe guidée par l’attention (AGSLEnet) qui exploite les relations latentes entre les signaux EEG pour améliorer les performances de l’AAD. Pour ce réseau, l’étude a été divisée en plusieurs étapes faisant l’objet d’analyses et d’expériences approfondies.
Enregistrement et prétraitement des signaux EEG multi-canaux : Les signaux EEG ont d’abord été référencés par rapport à la réponse moyenne de tous les canaux. Ensuite, un filtre passe-bande de 1 à 32 Hz a été appliqué et les signaux EEG filtrés ont été sous-échantillonnés à 128 Hz. De plus, une analyse en composantes indépendantes (ICA) a été effectuée à l’aide de la boîte à outils EEGLAB pour réduire les artefacts. Après ces traitements, une série de tranches EEG appelées fenêtres de décision (Decision Windows) a été obtenue.
Extraction de caractéristiques temporelles : Dans le module d’extraction de caractéristiques temporelles, des couches de convolution 1D et des fonctions d’activation d’unité linéaire exponentielle (ELU) ont été utilisées, combinées avec des couches de normalisation par lot (BN) pour agréger les informations temporelles de chaque canal EEG.
Représentation de graphe guidée par l’attention : L’étude a construit une représentation de graphe basée sur un mécanisme d’attention. Plus précisément, une projection linéaire a été utilisée pour transformer les cartes de caractéristiques en vecteurs de requête et de clé, et leur produit scalaire a été calculé pour obtenir une matrice de poids d’attention, qui a ensuite été utilisée pour générer dynamiquement la matrice d’adjacence des signaux EEG, capturant ainsi les informations d’association résistantes.
Convolution de graphe : L’opération de convolution de graphe, calculée à partir de la matrice laplacienne normalisée via un filtre spectral, a été utilisée pour capturer les informations globales du graphe EEG. La convolution de graphe a permis à ce réseau d’étendre les opérations de convolution au domaine des graphes en effectuant un traitement du signal via une transformée de Fourier.
Classificateur AAD de bout en bout : Enfin, AGSLEnet est un système de bout en bout qui prend en entrée des signaux EEG multi-canaux et produit un jugement binaire d’attention. À cette étape, les cartes de caractéristiques traitées par un regroupement temporel moyen (Temporal Average Pooling) et un aplatissement (Flattening) passaient par une couche entièrement connectée (Fully Connected Layer) avec une fonction d’activation softmax pour effectuer la classification binaire finale.
Sujets de recherche et expériences
Pour évaluer l’efficacité d’AGSLEnet, de vastes expériences ont été menées sur deux ensembles de données AAD publics. Ces deux ensembles de données sont le KUL dataset et le DTU dataset. Dans chacun de ces ensembles, les signaux EEG multi-canaux des participants ont été enregistrés lorsqu’ils écoutaient et se concentraient sur la voix d’un locuteur spécifique.
Ensemble de données KUL : Comprend les données EEG de 16 personnes avec une audition normale, qui ont été instruites de se concentrer sélectivement sur un locuteur dans un scénario à double locuteur. Les signaux EEG à 64 canaux ont été enregistrés dans une chambre sourde acoustique et électromagnétique, avec un taux d’échantillonnage de 8192 Hz.
Ensemble de données DTU : Provenant de 18 participants avec une audition normale, les signaux EEG ont été enregistrés dans des environnements simulés de réverbération et sans réverbération. Les signaux EEG ont été enregistrés à un taux d’échantillonnage de 512 Hz à l’aide du système BioSemi Actif.
Principaux résultats de recherche
Efficacité du réseau d’apprentissage de structure de graphe guidée par l’attention (AGSLEnet) : AGSLEnet a montré des performances AAD supérieures sur les deux ensembles de données KUL et DTU. En construisant une représentation de graphe dynamique basée sur l’attention, AGSLEnet a réussi à capturer les relations latentes entre les signaux EEG, conduisant à une précision AAD nettement plus élevée que les autres modèles concurrents.
Performances AAD à faible latence : Dans la plage de longueur de fenêtre de décision de 0,1 à 2 secondes, AGSLEnet a montré une précision AAD remarquable. Par exemple, à une latence aussi faible que 0,1 seconde, la précision atteignait 88,1 % ; et à 1 seconde de fenêtre de décision, la précision était de 93,6 %.
Études comparatives : Lors de la comparaison d’AGSLEnet avec d’autres modèles (tels que CNN, RGC, etc.), les résultats ont montré qu’AGSLEnet surpassait les autres pour toutes les longueurs de fenêtre de décision. Par exemple, par rapport aux autres modèles, AGSLEnet a augmenté la précision de 3,5 % à 9,5 % pour une fenêtre de décision d’une seconde.
Conclusion et signification
Cette étude, en proposant le cadre AGSLEnet basé sur l’apprentissage de structure de graphe guidée par l’attention, a fourni de nouvelles perspectives scientifiques et possibilités pratiques pour la détection de l’attention auditive à partir de signaux EEG. Non seulement AGSLEnet surpasse les méthodes traditionnelles en termes de précision AAD, mais il démontre également l’efficacité de la construction dynamique de structures de graphe à partir des signaux EEG. Cette nouvelle technique de décodage neuronal devrait promouvoir le développement de dispositifs auditifs guidés par les neurones et fournir de nouveaux outils et méthodes pour des applications en situation réelle.
Points forts de la recherche
- Méthode innovante : Utilisation d’un mécanisme d’attention pour générer dynamiquement la structure de graphe des signaux EEG, optimisant ainsi les performances de décodage de l’attention.
- Expériences étendues : Validation de l’efficacité et de la capacité de généralisation du modèle grâce à des expériences approfondies sur les deux ensembles de données publics KUL et DTU.
- Applications à faible latence : Excellentes performances dans divers scénarios à faible latence, jetant les bases pour des applications de dispositifs guidés par les neurones en temps réel.
- Importance interdisciplinaire : Fournit de nouvelles perspectives de recherche, aidant à approfondir la compréhension de la connectivité fonctionnelle du cerveau et des mécanismes de l’attention auditive.
Informations supplémentaires dignes d’intérêt
Les recherches futures pourraient continuer à explorer l’application d’AGSLEnet sur des ensembles de données plus réalistes, en particulier en incluant des données échantillonnées dans de multiples environnements réels. En élargissant la portée de la recherche, non seulement les résultats théoriques seraient validés, mais les performances du modèle dans des applications concrètes seraient également améliorées. En outre, l’application des techniques d’apprentissage auto-supervisé (SSL) à l’analyse des signaux EEG est également prometteuse.
En mettant en œuvre le cadre AGSLEnet, cette étude présente des perspectives académiques et applicatives étendues dans les domaines de la détection de l’attention auditive, des applications à faible latence, du décodage des signaux EEG et de la recherche sur les fonctions cérébrales.