Un CNN d'apprentissage de la dépendance temporelle avec mécanisme d'attention pour le décodage MI-EEG

Un réseau de neurones convolutifs (CNN) de dépendance temporelle basé sur un mécanisme d’attention pour le décodage MI-EEG

Contexte de recherche et description du problème

Les systèmes d’Interface Cerveau-Machine (Brain-Computer Interface, BCI) offrent une nouvelle voie de communication avec les ordinateurs en traduisant en temps réel les signaux cérébraux. Ces dernières années, la technologie BCI a progressivement joué un rôle important dans l’assistance et les soins préventifs pour les patients paralysés. De nombreux systèmes BCI existants reposent sur l’enregistrement non invasif et relativement pratique de l’électroencéphalographie (EEG) pour suivre l’activité cérébrale. Cependant, même pendant la même tâche MI, la caractéristique de dépendance temporelle des différents schémas relatifs à MI produits à différentes périodes est souvent négligée, limitant ainsi considérablement les performances du décodage MI-EEG.

Source du papier et informations sur les auteurs

L’article intitulé “A Temporal Dependency Learning CNN with Attention Mechanism for MI-EEG Decoding” a été publié en 2023 dans la revue IEEE Transactions on Neural Systems and Rehabilitation Engineering. Cet article a été rédigé conjointement par Xinzhi Ma, Weihai Chen, Zhongcai Pei, Jingmeng Liu, Bin Huang et Jianer Chen. Ils sont respectivement affiliés à l’École des Sciences Automatiques et du Génie Électrique de l’Université Beihang, à l’École de Génie Électrique et d’Automatisation de l’Université Anhui, ainsi qu’à la Troisième Annexe de l’Hôpital de Médecine Chinoise de Zhejiang.

Processus de recherche

Représentation et traitement des données

L’équipe de recherche propose une méthode combinant un réseau de neurones convolutifs (CNN) avec un mécanisme d’attention pour améliorer les performances de décodage des signaux MI-EEG. Tout d’abord, une série de filtres passe-bande est utilisée pour prétraiter les signaux EEG afin de construire une représentation des données multi-perspective. Dans cette étude, le groupe de filtres comprend 9 filtres passe-bande, chaque filtre ayant une largeur de bande de 4 Hz, couvrant une gamme de fréquences de 4 à 40 Hz.

Apprentissage des informations spatiales et spectrales

Ensuite, le réseau présenté dans l’article utilise une couche de convolution spatiale pour intégrer les données provenant de différents canaux et bandes de fréquence, afin d’apprendre des informations spatiales et spectrales. Plus précisément, l’équipe de recherche a utilisé 64 filtres spatiaux ainsi qu’une fonction d’activation et une couche de normalisation par lots, produisant une série de séquences temporelles pour un traitement ultérieur.

Segmentation des fenêtres temporelles et extraction des caractéristiques

Par la suite, dans l’article, une série de fenêtres temporelles non chevauchantes est utilisée pour segmenter les séquences temporelles résultantes afin d’extraire des caractéristiques discriminantes dans chaque fenêtre temporelle. L’équipe de recherche a utilisé une couche de variance temporelle pour capturer les schémas relatifs à MI de différentes phases en calculant la variance des signaux dans chaque fenêtre temporelle. Ces caractéristiques de variance sont ensuite introduites dans le module d’attention temporelle après calcul logarithmique pour un traitement ultérieur.

Module d’attention temporelle

Le module d’attention temporelle est conçu pour attribuer des poids d’importance aux caractéristiques dans différentes fenêtres temporelles et les fusionner en des caractéristiques plus discriminantes. Dans cette section, l’équipe de recherche a utilisé une convolution profonde séparable pour appliquer indépendamment plusieurs têtes d’attention à différents sous-espaces de caractéristiques, exécutant ainsi le mécanisme d’attention multi-têtes. Ainsi, chaque sous-espace de caractéristiques est influencé par différents poids d’attention, générant finalement un vecteur de caractéristiques de classification final via la fusion des caractéristiques.

Classification

Enfin, toutes les caractéristiques sont aplaties en un vecteur de caractéristiques 1D, puis introduites dans une couche entièrement connectée pour effectuer la classification finale.

Résultats expérimentaux

L’article évalue les performances du réseau proposé sur deux ensembles de données MI-EEG publics, à savoir BCI Competition IV-2a (BCIC-IV-2a) et le Korea University EEG dataset (OpenBMI). Les résultats expérimentaux montrent que le réseau surpasse les algorithmes existants à la pointe de la technologie pour ces deux ensembles de données.

Analyse des résultats

Sur l’ensemble de données BCIC-IV-2a, la précision moyenne du réseau dans les configurations dépendantes et indépendantes de la session est respectivement de 82,32 % et 79,48 %, augmentant la précision de 2,30 % et 4,29 % par rapport aux méthodes existantes. Sur l’ensemble de données OpenBMI, le réseau a également significativement amélioré les performances, bien que la différence d’amélioration dans les deux configurations soit moindre.

Points d’intérêt et découvertes importantes

  1. Apprentissage de la dépendance temporelle : Pour la première fois, cette recherche examine la dépendance temporelle pour découvrir des caractéristiques discriminantes entre différentes périodes. Cette exploration démontre également le potentiel de l’apprentissage de la dépendance temporelle pour améliorer les performances du décodage MI-EEG.
  2. Module d’attention temporelle : Grâce à une conception adéquate, ce module a effectivement amélioré la capacité discriminante des caractéristiques, améliorant significativement les performances de décodage.

Visualisation et interprétation des résultats

Pour expliquer davantage la supériorité de cette méthode, l’équipe de recherche a également effectué une analyse de visualisation des caractéristiques. Les résultats montrent que les caractéristiques apprises par le réseau avec le module d’attention temporelle sont plus concentrées et distinguent mieux les différentes catégories que les autres méthodes.

Entraînement du réseau et consommation de performances

L’article analyse également le processus d’entraînement du réseau, le temps d’entraînement et le nombre de paramètres, démontrant la stabilité et l’efficacité du réseau. Enfin, l’équipe de recherche a comparé la précision du décodage en extrayant les signaux EEG de différentes périodes et a trouvé que les données de fenêtres temporelles plus longues offrent de meilleures performances de décodage par rapport aux fenêtres temporelles plus courtes.

Conclusion de l’étude

Cette recherche propose une nouvelle méthode pour améliorer les performances de décodage MI-EEG en utilisant l’apprentissage de la dépendance temporelle et le mécanisme d’attention. Les résultats expérimentaux vérifient l’effet significatif de cette méthode dans l’amélioration de la précision de décodage. Cette recherche souligne le potentiel de l’apprentissage de la dépendance temporelle dans le développement de systèmes de décodage MI-EEG efficaces, avec des perspectives d’exploration future dans la sélection automatique des filtres, l’applicabilité aux tâches inter-sujets et les méthodes de décodage d’autres types de signaux EEG.

Cette recherche enrichit non seulement le domaine du traitement des signaux EEG sur le plan théorique, mais offre également une référence précieuse pour le développement de systèmes d’interface cerveau-machine plus efficaces dans des applications pratiques.