EISATC-Fusion: 始まりの自己注意 時間的畳み込みネットワーク融合 モーターイメージEEG認識用
研究背景
脳と外部デバイスの直接通信を実現する脳-コンピュータインターフェース技術(brain-computer interface, BCI)は、人間と機械のインタラクション、運動リハビリ、医療などの分野で広く応用されています。BCIの一般的なパラダイムには、定常状態視覚誘発電位(steady-state visual evoked potentials, SSVEP)、P300、運動イメージ(motor imagery, MI)などがあります。特に、MI-BCIはその広い応用前景のために注目されています。
MI-BCIは通常、脳波(electroencephalography, EEG)信号を用いて運動イメージを検出し、利用者が運動を想像することでデバイス(電動車椅子、カーソル、上肢ロボットなど)を制御できるようにします。しかし、脳活動の不安定さと低信号対雑音比(signal-to-noise ratio, SNR)、および個体間の信号の差異とEEGチャンネル間の相関性により、脳信号の分析と分類の複雑さが増します。現在、MI EEG信号のデコードは主に従来の機械学習と深層学習技術に依存していますが、EEG信号の多様性と個体差によってデコード精度は依然として限られており、このことがMI-BCIの応用を妨げています。
论文来源
この論文は、曲阜師範大学工学部に所属するGuangjin Liang、Dianguo Cao、Jinqiang Wang、Zhongcai Zhang、およびYuqiang Wuなどの研究者によって執筆されました。論文はIEEE Transactions on Neural Systems and Rehabilitation Engineering, Vol. 32, 2024に掲載されました。
研究流程
本研究は、高性能かつ軽量なエンドツーエンドMI EEGデコードモデルEISATC-Fusionを提案し、Inceptionブロック、マルチヘッド自己注意機構(Multi-Head Self-Attention, MSA)、時間畳み込みネットワーク(Temporal Convolutional Network, TCN)などのモジュール、および特徴融合と意思決定融合を含みます。具体的な研究の流れと方法は以下の通りです:
数据预处理
- 输入表示和预处理:
- データはc個のチャンネルとt個のサンプリングポイントを含み、フィルタリングやアーチファクト除去を必要としません。
- zスコア正規化を使用して脳波信号の非定常性を低減し、正規化の公式は以下の通りになります: [ X’ = \frac{X_i - \mu}{\sqrt{\sigma^2}} ]
模型结构
- EISATC-Fusion模型结构:
- EDSIモジュール:通常の畳み込みと深部逐次畳み込みを使用して時間的および空間的特徴を抽出し、深部逐次分離可能な畳み込みのInceptionモジュールを通じて多スケール時間的特徴を抽出します。
- CNNCoSマルチヘッド自己注意モジュール:CNNに基づいて注意崩壊の問題を解決し、cos注意を追加してモデルの説明可能性を高めます。
- TDScnモジュール:深部逐次分解畳み込みを通じてモデルのパラメータを減少させます。
- 融合モジュール:特徴融合と意思決定融合を含み、モデルの出力特徴を効果的に活用し、モデルの堅牢性を向上させます。
特徴提取
EDSI模块:
- コアは三層の畳み込み層で、第一層は時間畳み込み、第二層はチャンネル畳み込み、第三層はInceptionブロックです。
- 異なるパスが異なる畳み込みカーネルサイズを使用し、最大プーリング層が入力情報を融合します。
- すべての畳み込み後にバッチ正規化および指数線形ユニット活性化を行い、プーリング層の後にドロップアウト層を追加します。
CNNCoSマルチヘッド自己注意模块:
- クエリ(query)、キー(key)、バリュー(value)の三部分を介して注意機構をシミュレートします。
- 深部逐次畳み込みを使用してq、k、vベクトルを計算し、余弦注意機構を通じて注意スコアを計算し、元の注意重みを改良します。
TDScnモジュール:
- TCNはシーケンスデータの状態を明示的に維持する必要がなく、計算効率と時間依存性を向上させます。
- パラメータを減少させるために、膨張畳み込みを膨張逐次畳み込みに置き換えます。
融合モジュール:
- 特徴融合は、モデルの異なる層の出力を結合して、入力データの隠れた情報を抽出します。
- 意思決定融合は、複数の分類器の出力を融合することで、不確実性と誤りを低減し、モデルの情報統合能力を高めます。
主要结果
受試者内デコード実験:
- EISATC-Fusionは、BCI-2aおよびBCI-2bデータセットで最高の平均デコード精度を達成しました。
- CNN、MSA、及び多スケール構造のモデルと比較して、明らかな向上を示し、パラメータの量も著しく減少しました。
消融实验:
- EISATC-Fusionの各モジュールに対する消融実験によって、各モジュールがデコード性能の向上に貢献していることが示されました。
- 特に、融合モジュールがモデル性能に最も貢献しています。
不同训练策略の比較:
- 改良した二段階訓練戦略はモデル性能を著しく向上させ、この戦略の普遍性が検証されました。
受試者间デコード実験:
- EISATC-Fusionは受試者间実験でも優れた性能を示し、特に受試者間デコード性能が顕著に向上しました。
迁移学习实验:
- 受試者间迁移学习実験により、EISATC-Fusionが新しい受試者に対して優れた汎化性能を示すことが確認されました。
- 異なるデータセットおよび学習率の影響実験において、モデルの性能は着実に向上しました。
可解释性实验:
- 特徴の可視化および畳み込みカーネルの重みの可視化を通じて、モデルの説明可能性が検証されました。
- Cos注意は、それぞれの注意ヘッドの具体的な物理的意味を明確に示し、モデルの透明性を高めました。
研究结论
本研究で提案されたEISATC-Fusionモデルは、多モジュールの協働を通じて高性能かつ軽量なMI EEGデコードを実現しました。改良した訓練戦略はさらにモデル性能を向上させ、受試者间迁移学习においても優れた結果を示しました。本研究は、可視化方法を用いてモデルの説明可能性を示し、将来の実際の応用と更なる最適化のための強力な支援を提供しました。しかしながら、本研究はオンライン実験とモデルの軽量化を行っておらず、今後の研究ではモデルパラメータの最適化とオンライン実験を行う予定です。