ADFCNN : Réseau de neurones convolutionnels à fusion double échelle basé sur l'attention pour l'interface cerveau-ordinateur basée sur l'imagerie motrice
L’interface cerveau-ordinateur (Brain-Computer Interface, BCI) est une technologie de communication et de contrôle émergente qui a gagné en popularité ces dernières années. Parmi les BCI basés sur les caractéristiques électrophysiologiques (comme l’électroencéphalogramme, EEG), l’imagerie motrice (Motor Imagery, MI) est une branche importante, utilisée pour décoder l’intention motrice des utilisateurs dans des domaines tels que la rééducation clinique, le contrôle de fauteuils roulants intelligents, et le contrôle de curseurs. Cependant, en raison de la complexité des signaux EEG, telles que le faible rapport signal-bruit (Signal-to-Noise Ratio, SNR), la non-stationnarité, la faible résolution spatiale et la haute résolution temporelle, le décodage précis de l’intention motrice demeure un défi. Les méthodes actuelles de décodage des MI basées sur les BCI utilisent principalement l’apprentissage automatique traditionnel et les techniques d’apprentissage profond. L’apprentissage automatique traditionnel se compose souvent de deux étapes distinctes : l’extraction des caractéristiques et la classification des caractéristiques, avec des méthodes incluant la Transformée de Fourier Rapide (Fast Fourier Transform, FFT), le Modèle Spatial Commun (Common Spatial Pattern, CSP) et la Transformée en Ondelettes (Wavelet Transform, WT). Cependant, les méthodes traditionnelles nécessitent beaucoup de connaissances expertes, ce qui limite la performance de la classification. En revanche, l’apprentissage profond, grâce à sa puissante capacité d’apprentissage de représentation, a montré des résultats significatifs dans le domaine des BCI.
Ces dernières années, les réseaux de neurones convolutifs (Convolutional Neural Networks, CNN) ont démontré une valeur applicative significative dans les BCI basés sur les MI. Cependant, les CNN à échelle unique présentent des limites lorsqu’il s’agit d’extraire une large gamme d’informations spectrales des signaux EEG, tandis que les CNN multi-échelles typiques présentent également des insuffisances dans la fusion des informations à différentes échelles. Pour résoudre ces problèmes, cette étude propose une nouvelle architecture de réseau de neurones convolutifs à double échelle fusionnée basée sur le mécanisme d’attention (Attention-Based Dual-Scale Fusion Convolutional Neural Network, ADFCNN) afin d’extraire et de fusionner conjointement les informations spectrales et spatiales des signaux EEG à différentes échelles, tout en utilisant un mécanisme d’auto-attention pour réaliser une fusion efficace de ces informations.
Origine de la recherche
Cet article a été rédigé par les auteurs et institutions suivants : Wei Tao, Ze Wang, Chi Man Wong, Ziyu Jia, Chang Li, Xun Chen, C. L. Philip Chen et Feng Wan, principalement issus de l’Université de Macau, l’Université des Sciences et Technologies de Macau, l’Institut d’Automatisation de l’Académie Chinoise des Sciences, l’Université de Technologie de Hefei, l’Université de Science et Technologie de Chine et l’Université de Technologie du Sud de la Chine. Cet article a été publié en janvier 2024 dans la revue IEEE Transactions on Neural Systems and Rehabilitation Engineering.
Processus détaillé de la recherche
a) Processus de travail de la recherche
Description et prétraitement des jeux de données :
- Description des jeux de données : Cette étude utilise trois jeux de données ouverts : BCI Competition IV 2a, BCI Competition IV 2b et le jeu de données OpenBMI. Ces jeux de données contiennent différents nombres de sujets, taux d’échantillonnage et configurations d’électrodes, comme suit :
- BCI Competition IV 2a (BCI-IV2a) : Données de 9 sujets sains, chaque sujet ayant 576 essais, 22 électrodes, taux d’échantillonnage de 250Hz.
- BCI Competition IV 2b (BCI-IV2b) : Données de 9 sujets, chaque sujet ayant au moins 320 essais, 3 électrodes, taux d’échantillonnage de 250Hz.
- Jeu de données OpenBMI : Données de 54 sujets, chaque sujet ayant au moins 200 essais, 62 électrodes, taux d’échantillonnage de 1000Hz.
- Prétraitement :
- Tout d’abord, chaque essai EEG est représenté par x ∈ R^c×t, où c est le nombre d’électrodes et t le nombre de points d’échantillonnage.
- Ensuite, les signaux EEG bruts sont sous-échantillonnés à 250Hz ; pour le jeu de données OpenBMI, un filtrage passe-bande de 0 à 40Hz est appliqué aux signaux EEG pour extraire les principales bandes de fréquence EEG.
- Enfin, une normalisation exponentielle mobile basée sur les électrodes est appliquée pour standardiser les données EEG.
- Description des jeux de données : Cette étude utilise trois jeux de données ouverts : BCI Competition IV 2a, BCI Competition IV 2b et le jeu de données OpenBMI. Ces jeux de données contiennent différents nombres de sujets, taux d’échantillonnage et configurations d’électrodes, comme suit :
Structure du modèle :
- Réseau de neurones convolutifs spatio-temporel à double échelle (Dual-Scale Temporal-Spatial Convolutional Neural Network) :
- Branche-I : Elle comprend une couche de convolution temporelle à grande échelle, une couche de convolution spatiale séparée à grande échelle et une couche de convolution ponctuelle, utilisées pour extraire les informations spectrales à grande échelle et les informations spatiales globales.
- Branche-II : Elle comprend une couche de convolution temporelle à petite échelle et une couche de convolution spatiale standard, utilisées pour capturer les informations de haute fréquence à petite échelle et les informations spatiales détaillées.
- Mécanisme d’attention : Utilisé pour fusionner les caractéristiques extraites par les deux branches du CNN, améliorant la flexibilité des caractéristiques fusionnées de manière adaptative.
- Couches Dense et Softmax : Utilisées pour la sortie finale des résultats de classification.
- Réseau de neurones convolutifs spatio-temporel à double échelle (Dual-Scale Temporal-Spatial Convolutional Neural Network) :
Configuration des expériences :
- Utilisation de la méthode de validation croisée à 5 volets et comparaison avec plusieurs modèles de référence d’apprentissage profond.
- Utilisation du test de Wilcoxon pour la comparaison statistique des résultats.
b) Principaux résultats
Les résultats expérimentaux montrent que l’ADF-CNN obtient d’excellentes performances de classification sur les trois jeux de données publics. En particulier, l’ADF-CNN atteint un taux de classification moyenne sur des sujets croisés de 79,39% sur le jeu de données BCI-IV2a, améliorant ainsi la précision de 9,14% ; de 87,81% sur le jeu de données BCI-IV2b, améliorant ainsi la précision de 7,66% ; et de 65,26% sur le jeu de données OpenBMI, améliorant ainsi la précision de 7,2%. De plus, des expériences d’ablation et des analyses de visualisation ont confirmé l’efficacité du modèle de fusion spatio-temporelle à double échelle et du module de mécanisme d’auto-attention.
c) Conclusions et significations
Cette étude propose un réseau de neurones convolutifs à double échelle fusionné et basé sur l’attention, capable d’extraire et de fusionner des informations spectrales et spatiales EEG à différentes échelles, améliorant ainsi considérablement les performances de classification des MI. Cette méthode surmonte les limitations des CNN à échelle unique dans le traitement des signaux EEG et réalise une fusion efficace des informations à différentes échelles grâce au mécanisme d’auto-attention. Elle propose une stratégie de décodage innovante, présentant un potentiel considérable pour les applications BCI. Les recherches futures pourraient explorer l’applicabilité et l’adaptabilité de cette méthode dans les tâches inter-sujets.
d) Points forts de la recherche
- Méthode innovante : La méthode ADFCNN basée sur un mécanisme d’attention montre une innovation dans le traitement des signaux EEG et la fusion des caractéristiques.
- Amélioration significative des performances : ADFCNN montre une amélioration significative des performances de classification des MI, surclassant les méthodes CNN multi-échelles existantes.
- Analyse de visualisation : La visualisation des noyaux de convolution et du mécanisme d’auto-attention approfondit la compréhension du processus d’apprentissage du modèle et de la distribution des caractéristiques.
e) Autres informations
- Code source ouvert : L’équipe de recherche fournit le code source ouvert (https://github.com/um-tao/adfcnn-mi) pour faciliter la vérification et l’utilisation.