EISATC-Fusion: Fusion du réseau de convolution temporelle à auto-attention inception pour le décodage EEG de l'imagerie motrice
Contexte de la recherche
La technologie d’interface cerveau-ordinateur (brain-computer interface, BCI) permet une communication directe entre le cerveau et les dispositifs externes. Elle est largement utilisée dans des domaines tels que l’interaction homme-machine, la rééducation motrice et la médecine. Les paradigmes courants de BCI incluent le potentiel évoqué visuel steady-state (steady-state visual evoked potentials, SSVEP), le P300, l’imagerie motrice (motor imagery, MI), etc. Parmi eux, le MI-BCI est particulièrement remarqué en raison de ses perspectives d’application étendues.
Le MI-BCI utilise généralement des signaux électroencéphalographiques (electroencephalography, EEG) pour détecter l’imagerie motrice, permettant ainsi à l’utilisateur de contrôler des dispositifs comme des fauteuils roulants électriques, des curseurs et des robots d’assistance avec les membres supérieurs en imaginant des mouvements. Cependant, l’instabilité de l’activité cérébrale et le faible rapport signal/bruit (signal-to-noise ratio, SNR), ainsi que les différences interindividuelles et la corrélation entre les canaux EEG, augmentent la complexité de l’analyse et de la classification des signaux cérébraux. Actuellement, le décodage des signaux MI EEG repose principalement sur les techniques traditionnelles d’apprentissage automatique et d’apprentissage profond, mais en raison de la variabilité des signaux EEG et des différences individuelles, la précision du décodage reste limitée, entravant l’application du MI-BCI.
Source du document
Cet article a été rédigé par Guangjin Liang, Dianguo Cao, Jinqiang Wang, Zhongcai Zhang, et Yuqiang Wu, chercheurs affiliés à la Faculté d’Ingénierie de l’Université de Quzhou. L’article a été publié dans IEEE Transactions on Neural Systems and Rehabilitation Engineering, Vol. 32, 2024.
Processus de recherche
Cette étude propose un modèle de décodage MI EEG de bout en bout, performant et léger, appelé EISATC-Fusion. Il inclut des modules tels que des blocs Inception, un mécanisme de multi-head self-attention (MSA), un réseau de convolution temporel (Temporal Convolutional Network, TCN) ainsi qu’une fusion de caractéristiques et de décisions. Voici le processus et les méthodes de recherche spécifiques :
Prétraitement des données
- Représentation et prétraitement des entrées :
- Les données incluent c canaux et t points d’échantillonnage sans filtration ni élimination des artefacts.
- Une normalisation par z-score est utilisée pour réduire la non-stationnarité des signaux EEG. La formule de normalisation est: [ X’ = \frac{X_i - \mu}{\sqrt{\sigma^2}} ]
Structure du modèle
- Structure du modèle EISATC-Fusion :
- Module EDSI : Utilise des convolutions ordinaires et des convolutions depthwise pour extraire les caractéristiques temporelles et spatiales. Il extrait les caractéristiques temporelles multi-échelles via des modules Inception à convolution séparable.
- Module CNNCoS multi-head self-attention : Basé sur le CNN pour résoudre le problème d’effondrement de l’attention. Ajoute une attention cosinus pour améliorer l’interprétabilité du modèle.
- Module TDScn : Réduit les paramètres du modèle via des convolutions décomposées depthwise.
- Module de fusion : Inclut la fusion de caractéristiques et de décisions pour exploiter pleinement les caractéristiques de sortie du modèle et améliorer la robustesse du modèle.
Extraction des caractéristiques
Module EDSI :
- Principalement constitué de trois couches de convolution : première pour la convolution temporelle, seconde pour la convolution des canaux, et troisième pour le bloc Inception.
- Différents parcours utilisent différentes tailles de noyau de convolution et une couche de pooling maximale pour fusionner les informations d’entrée.
- Chaque couche de convolution est suivie par une normalisation par lot et une activation par une unité linéaire exponentielle. Une couche dropout est ajoutée après le pooling.
Module CNNCoS multi-head self-attention :
- Simule le mécanisme d’attention par la division en trois parties: query, key, et value.
- Utilise une convolution depthwise pour calculer les vecteurs q, k, v. Les scores d’attention sont ensuite calculés via un mécanisme d’attention cosinus, améliorant les poids d’attention originaux.
Module TDScn :
- Le TCN n’a pas besoin de maintenir explicitement l’état des données séquentielles, améliorant l’efficacité et la dépendance temporelle.
- Remplace les convolutions dilatées par des convolutions dilatées depthwise pour réduire les paramètres du modèle.
Module de fusion :
- La fusion des caractéristiques combine les sorties des différentes couches du modèle pour extraire les informations cachées des données d’entrée.
- La fusion des décisions réduit les incertitudes et les erreurs en fusionnant les sorties de plusieurs classificateurs, améliorant l’intégration de l’information par le modèle.
Résultats principaux
Expériences de décodage intra-sujet :
- EISATC-Fusion a obtenu les taux de précision moyenne de décodage les plus élevés sur les ensembles de données BCI-2a et BCI-2b.
- Comparé aux modèles CNN, MSA et structures multi-échelles, l’amélioration est notable et la quantité de paramètres est significativement réduite.
Expériences d’ablation :
- Des expériences d’ablation sur chaque module de l’EISATC-Fusion montrent que chaque module contribue à l’amélioration des performances de décodage.
- Le module de fusion contribue le plus aux performances du modèle.
Comparaison de différentes stratégies d’entraînement :
- La stratégie d’entraînement en deux phases améliorée améliore significativement les performances du modèle, validant l’universalité de la stratégie.
Expériences de décodage inter-sujets :
- EISATC-Fusion affiche des performances exceptionnelles dans les expériences inter-sujets, avec une amélioration notable des performances de décodage inter-sujets.
Expériences d’apprentissage par transfert :
- Les expériences d’apprentissage par transfert inter-sujets montrent qu’EISATC-Fusion offre une meilleure généralisation pour les nouveaux sujets.
- Les performances du modèle s’améliorent régulièrement malgré les variations de groupes de données et de taux d’apprentissage.
Expériences de la capacité d’interprétation :
- La visualisation des caractéristiques et des poids des noyaux de convolution valide la capacité d’interprétation du modèle.
- L’attention cosinus montre clairement la signification physique de chaque tête d’attention, augmentant la transparence du modèle.
Conclusions de la recherche
Le modèle EISATC-Fusion proposé dans cet article atteint un décodage MI EEG performant et léger grâce à la synergie des différents modules. La stratégie d’entraînement améliorée renforce les performances du modèle et il démontre des résultats remarquables dans l’apprentissage par transfert inter-sujets. Cette recherche, via des méthodes de visualisation, présente la capacité d’interprétation du modèle, offrant un soutien significatif pour des applications pratiques futures et d’autres optimisations. Cependant, cette étude n’a pas encore effectué d’expériences en ligne ni de processus de réduction du modèle. Ces aspects seront abordés dans les travaux futurs avec une optimisation des paramètres du modèle et des expérimentations en ligne.