言語間で共有された皮質発語表象によって駆動されるバイリンガル音声神経補綴

大脳皮質発話表現に基づくバイリンガル音声神経義肢

背景

神経義肢の発展の過程では、脳活動から言語をデコードする研究が単一言語のデコードに集中してきました。そのため、バイリンガルによる言語生成が異なる言語の独自または共有された皮質活動にどの程度依存するかはまだ不明です。本研究は、電皮質図(electrocorticography, ECoG)と深層学習および統計的自然言語モデルを組み合わせ、西スペイン語-英語バイリンガル患者の発話運動皮質活動を記録およびデコードし、二つの言語の文に変換します。この研究は、目標言語を手動で指定することなく発話デコードを実現するという実際の応用問題を解決することを目指しています。

言語失声症 (anarthria)、すなわち明瞭な発話能力の喪失は、脳卒中や筋萎縮性側索硬化症などの神経疾患の重大な症状の一つです。現在、侵襲的発話脳-コンピュータインタフェース(BCI)が、皮質活動のデコードを通じて患者の自然なコミュニケーション能力を回復するために開発されています。しかし現存の発話BCI研究は主に単一の言語、特に英語またはオランダ語のデコードに集中しており、これは研究対象の選択に大きな関係があります。そのため、バイリンガルや非英語言語の神経義肢研究は少ないです。世界の約3分の2の人々がバイリンガルであり、研究によれば、これらのバイリンガルは異なる社会的環境で異なる言語を使用し、その多言語使用が全体的な人格や世界観に重要な影響を与えています。多言語デコードに適応するBCIシステムを設計することは、すべての可能な恩恵を受ける患者のコミュニケーション能力を回復するために非常に重要です。

論文出典

この論文はAlexander B. Silva、Jessie R. Liu、Sean L. Metzgerらによって執筆され、カリフォルニア大学サンフランシスコ校(University of California, San Francisco, UCSF)の神経外科とワイル神経科学研究所(Weill Institute for Neurosciences)、およびカリフォルニア大学バークレー校(University of California, Berkeley)によって行われました。この論文は《Nature Biomedical Engineering》誌に掲載され、2024年4月1日に発表されました。DOI:https://doi.org/10.1038/s41551-024-01207-5。

研究の詳細

研究の流れ

  1. システムの起動と文のデコード

    • 参加者は発声を試み、音声検出モジュールを通じて初期の発声の試みを識別します。初期の試みが検出されると、システムは3.5秒ごとに次の文を提示し、各試みで神経特徴を記録および処理します。
    • バイリンガル語彙には51の英語単語と50のスペイン語単語が含まれています。モデルは共有された発声特徴を利用して言語間で汎化し、学習転移を使用して一つの言語の神経データを他の言語のデコード性能向上に役立てます。
  2. 語彙と言語モデル

    • モデルは共有のバイリンガル音節分類器を使用し、言語モデル(LM)が言語的に有効なフレーズを優先的に選択し、文脈に応じて動詞を正確に変位させ、二つの言語モデルの中から最も高得点の文を表示します。
  3. モデルの訓練と評価

    • 隔離目標タスクのデータを使用して分類および検出モデルを訓練します。このタスクでは、参加者は視覚的なヒントを基に目標単語を発話しようとし、これを高ガンマ活動(HGA)および低周波信号(LFS)特徴を記録して予測に利用します。
    • 「コピータイピング」タスクを使用して評価を行い、参加者はランダムな英語およびスペイン語のフレーズを提示に従って再現します。性能の評価は主に単語誤り率(WER)指標を用います。

研究結果

  1. バイリンガル音声神経義肢の性能

    • システムは英語とスペイン語のフレーズを柔軟にデコードできました。高密度ECoGアレイを使って神経特徴を記録し、デコードモデルを最適化することにより、オンラインテストブロックの中位単語誤り率(WER)は25.0%(99%信頼区間:17.2, 36.4%)であり、言語モデリングを組み合わせることでWERが70.6%(99% CI:61.9, 78.1%)に著しく低下しました。
  2. 音声検出と言語分類

    • リカレントニューラルネットワーク(RNN)分類器を使用して、3.5秒のウィンドウごとに神経特徴を処理し、104単語にわたるバイリンガルの確率分布を生成します。システムの対象言語での自由デコードの精度は87.5%(99% CI:85.7, 100%)に達し、ランダムな予測や神経活動に基づく言語選択を大きく上回り、言語モデリングが正しい言語の選択における重要性を示しています。
  3. 共有音節表現

    • 参加者は二つの言語の発話試行において類似した神経活動パターンを示し、言語間での共有発声特徴の存在をさらに証明しました。一つの言語で訓練されたモデルを使用することで、他の言語でも効果的な分類が可能です。

研究の結論

研究は、言語間で共有される皮質発声表現が麻痺後も持続し、異なる言語間で効果的にデコードできることを示しました。各言語ごとにデコーダを個別に訓練する必要はありません。学習転移を通じて、既収集の神経データを新しい言語語彙のデコード性能向上に役立て、訓練時間と参加者への負担を軽減します。

研究のハイライト

  1. バイリンガルのデコード問題解決

    • 共有の発声特徴を活かし、初めて目標言語を手動で指定せずにバイリンガルの発話デコード技術を実現しました。
  2. 迅速な学習転移

    • 一つの言語の神経データを使用して他の言語のデコード性能を向上させ、バイリンガルの参加者の訓練時間と負担を大幅に軽減しました。
  3. システムの安定持続性能

    • 頻繁な再校正が不要で、デコードモデルは40日以上にわたり性能を安定して維持しました。
  4. 広範な応用可能性

    • この技術は、バイリンガルや非英語言語のBCI応用に新たな可能性を提供し、重要な臨床応用価値および科学研究の意義を持ちます。

その他の有益な情報

この研究の限界として一人の参加者だけが含まれていたことが挙げられますが、異なる言語間で強い共有発声表現が存在するため、これは他の若年期に第二言語を学んだ人(これは一般的により強い共有表現を伴う)に対しても良好な汎化の潜在力を持ちます。将来的な研究では、言語熟練度、習得年齢、および母語との発声の類似性が共有表現に及ぼす影響にも注目すべきです。

まとめ

本研究は、バイリンガル音声神経義肢の可能性を示し、ユーザーの意図する言語を柔軟にデコードし、最小限の訓練データで言語間の汎化を実現する手段を提供します。この技術は麻痺患者の自然なコミュニケーション回復に貢献する重要な手段を提供し、将来的な研究や多言語BCIの発展に大きく寄与します。