Une approche basée sur le Transformer combinant un réseau d'apprentissage profond et des informations spatio-temporelles pour la classification des EEG bruts
Contexte et Objectif de la Recherche
Ces dernières années, les systèmes d’Interface Cerveau-Ordinateur (Brain-Computer Interface, BCI) ont été largement utilisés dans les domaines de l’ingénierie neuronale et des neurosciences, et l’électroencéphalogramme (EEG), en tant qu’outil pour refléter l’activité de différents groupes de neurones du système nerveux central, est devenu un sujet central de recherche dans ces domaines. Cependant, le signal EEG présente des caractéristiques telles qu’une faible résolution spatiale, une haute résolution temporelle, un faible rapport signal/bruit et des variations interindividuelles importantes, ce qui pose de grands défis pour le traitement et la classification précise des signaux. En particulier, dans le paradigme courant d’imagerie motrice (Motor Imagery, MI) des systèmes EEG-BCI, la classification précise des signaux EEG de différentes tâches MI est d’une grande importance pour la récupération fonctionnelle et la rééducation des systèmes BCI.
Les méthodes traditionnelles de classification des MI-EEG sont généralement basées sur l’extraction et la classification de caractéristiques manuelles, mais ces méthodes peuvent perdre des informations utiles sur l’EEG au stade de l’extraction des caractéristiques. Récemment, les modèles d’apprentissage profond ont gagné en popularité en raison de leur capacité d’extraction automatique de caractéristiques et de représentation riche des caractéristiques. Cependant, les méthodes d’apprentissage profond existantes (comme les réseaux de neurones convolutifs CNN et les réseaux de neurones récurrents RNN) ont une perception limitée des caractéristiques de dépendance globale lorsqu’elles traitent des données EEG.
Le modèle Transformer, avec ses capacités exceptionnelles d’extraction et de corrélation des caractéristiques, a montré des performances excellentes dans des domaines tels que le traitement du langage naturel (NLP), mais n’a pas encore été largement étudié dans le domaine de la classification et de la visualisation des EEG d’imagerie motrice, en particulier il manque de modèles généraux basés sur une validation croisée inter-sujets. Pour résoudre ces problèmes, les auteurs de cet article proposent une méthode de classification des EEG basée sur le modèle Transformer combiné avec un réseau d’apprentissage profond et des informations spatio-temporelles.
Auteurs et Source
Cet article a été rédigé par Jin Xie, Jie Zhang, Jiayao Sun, Zheng Ma, Liuni Qin, Guanglin Li, Huihui Zhou et Yang Zhan. Les auteurs principaux sont affiliés à l’Institut de Technologie Avancée de Shenzhen de l’Académie des Sciences de Chine et à d’autres institutions telles que le Laboratoire Clé de Shenzhen. La publication a été publiée en 2022 dans la revue 《IEEE Transactions on Neural Systems and Rehabilitation Engineering》 et a été soutenue par le Plan National de Recherche et Développement Clé de Chine, la Fondation Nationale des Sciences Naturelles de Chine et plusieurs autres projets.
Procédure de Recherche
Jeux de Données et Pré-traitement
Cette recherche a utilisé le jeu de données EEG Motor Movement/Imagery de Physionet, qui contient plus de 1500 essais de données provenant de 109 sujets, enregistrées par 64 électrodes avec une fréquence d’échantillonnage de 160 fois par seconde. La recherche se concentre sur la classification de l’imagerie motrice, sélectionnant les données d’imagerie motrice des mouvements des poings gauche, poings droit, des deux poings et des deux pieds. Les étapes de pré-traitement incluent la normalisation Z-score et l’ajout de bruit aléatoire pour éviter le surapprentissage.
Architecture du Modèle
La recherche a conçu cinq modèles différents basés sur le Transformer, y compris le Transformer spatial (S-Trans), le Transformer temporel (T-Trans), le Transformer spatial combiné avec CNN (S-CTrans) et le Transformer temporel (T-CTrans), ainsi que le modèle fusionné (F-CTrans).
Module Transformer
Le module Transformer utilise une structure encodeur-décodeur, en extrayant des informations grâce à l’empilement du mécanisme d’attention autonome et les couches totalement connectées point-par-point. La recherche a utilisé huit couches d’attention parallèles et a transformé les données EEG en vecteurs de requête, de clé et de valeur pour calculer les valeurs pondérées.
Module d’Embarquement de Position
Inclut trois méthodes de codage de position : encodage de position relative, encodage de position corrélée au canal et encodage de position par apprentissage. L’encodage de position relative est calculé en utilisant des fonctions trigonométriques, l’encodage de position corrélée au canal est calculé en fonction de la distance cosinus par rapport à l’électrode centrale, et l’encodage de position par apprentissage intègre une matrice entraînable.
Modèle Combinant CNN et Transformer
Le modèle combinant CNN traite respectivement les informations spatiales et temporelles. Le module CNN est utilisé pour extraire les caractéristiques, tandis que le Transformer traite ensuite ces caractéristiques pour la classification EEG. Dans le modèle fusionné, les informations spatiales et temporelles sont traitées en parallèle, après avoir passé les sous-modules CNN et Transformer, les caractéristiques sont combinées pour la classification.
Paramètres d’Entraînement
La recherche a utilisé l’optimiseur Adam, avec un cycle d’entraînement de 50 époques, et a utilisé la méthode de validation croisée à 5 plis pour évaluer les performances du modèle. Lors de la formation inter-sujets, les sujets ont été divisés en ensembles d’entraînement et de test pour obtenir une meilleure adaptabilité et robustesse.
Résultats de la Recherche
Précision de Classification
Les résultats de la recherche montrent que les modèles basés sur le Transformer obtiennent d’excellentes performances dans les tâches de classification à deux, trois et quatre catégories, avec des précisions maximales respectives de 83,31%, 74,44% et 64,22%, surpassant d’autres modèles représentatifs. En outre, après avoir combiné le module d’embarquement de position, la précision de classification a encore été améliorée.
Résultats de la Visualisation
Grâce à la visualisation des couches d’attention multiples, la recherche a découvert que les pondérations d’attention dans les régions sensorimotrices du cerveau montrent un modèle en accord avec la désynchronisation liée à l’événement (ERD). En particulier, dans les tâches d’imagerie motrice des poings gauche et droit, les pondérations d’attention montrent une augmentation significative dans les hémisphères contralatéraux correspondants. Cette découverte est cohérente avec les ERD basées sur l’analyse spectrale précédente, indiquant que le modèle Transformer peut révéler les mécanismes neuronaux dans les tâches d’imagerie motrice.
Conclusion et Signification de la Recherche
Cet article propose une méthode de classification EEG basée sur le Transformer combinant des informations spatio-temporelles et un réseau d’apprentissage profond pour les tâches d’imagerie motrice, en concevant cinq modèles différents. Les résultats de la recherche montrent que le modèle Transformer présente des performances exceptionnelles dans les tâches de classification EEG et, grâce aux résultats de visualisation, démontre son potentiel à révéler les mécanismes neuronaux dans les données EEG. Cette méthode a de vastes perspectives d’application dans les systèmes BCI et peut également être appliquée au diagnostic des maladies et à d’autres tâches de classification basées sur les données EEG.