ディープラーニングと音声合成を活用した神経音声デコーディングフレームワーク
神経科学研究で重大な突破:深層学習技術を用いて脳波信号から自然言語を復号化する
ニューヨーク大学の学際的研究チームが最近、神経科学と人工知能の分野で重大な突破を遂げました。彼らは深層学習に基づく新しいフレームワークを開発し、人間の脳の神経信号から直接自然な人間の声を復号化して合成することができます。この革新的な成果は、失語症や失音症の患者のための新世代の音声脳機械インターフェースの開発につながる可能性があります。
研究の動機 音声障害は患者の社会生活と生活の質に深刻な影響を与えます。過去数十年にわたり、研究者たちは、脳から音声を復号化し合成する神経インプラントを開発することで、これらの患者のコミュニケーション能力を回復させようと努力してきました。しかし、トレーニングに必要な脳と音声データの希少性、音声生成過程の複雑さと高次元性のため、高性能な音声復号化システムの構築は常に大きな課題でした。
研究の成果の核心 研究チームは、深層学習に基づく革新的な音声復号化フレームワークを提案しました。その中核には2つのモジュールがあります:(1)「脳波復号器」。大脑皮質に埋め込まれた電極アレイ(ECoG)から取得した脳波信号を解釈可能な音声パラメータに変換します。(2)新しい「区別可能な音声合成器」。音声パラメータをスペクトログラムに変換し、さらにGriffin-Lim アルゴリズムを使って波形を合成します。
研究者たちは、音声自己符号化器の概念も提案し、音声信号を利用して「音声合成器」を事前トレーニングし、参照音声パラメータを生成し、「脳波復号器」のトレーニングを導きました。このフレームワークでは、非常に高い擬似音声を生成でき、48名の被験者において高い再現性能を実現しました。
この音声復号化フレームワークの大きな革新点は、エンコーダーの因果性にあります。昨年、ほとんどの研究では非因果エンコーダーの結果しか報告されていませんでした。つまり、それらは現在と過去の脳波信号だけでなく、未来の信号も利用していたため、音声フィードバック情報に依存していました。これは実時間の音声生成アプリケーションでは機能しません。研究者が開発したエンコーダーは、因果モードと非因果モードの両方で動作可能で、前者は現在と過去の信号のみを利用するため、実時間アプリケーションにより適しています。実験では、因果モードにおいて、ResNetやSwin Transformerなどの先進的なアーキテクチャが、非因果モードとほぼ同等の高い復号精度を達成できることが証明されました。
さらに、このフレームワークでは右脳皮質からの音声復号化の可能性を示しており、左脳が重度に損なわれて失語症になった患者にとって新しい治療法の道を開くことになります。また、高密度電極アレイと一般的な低密度電極アレイの両方で、このフレームワークが高い復号性能を発揮することがわかり、その応用範囲が大きく広がることが期待されます。
革新的意義 この音声復号化フレームワークには、様々な分野で革新的な意義があります。
解釈可能な中間音声パラメータを採用し、新しい区別可能な音声合成器を搭載することで、話者の個人的特徴を保持した自然な音声を生成できます。
音声復号化エンコーダの因果性を初めて系統的に研究し、実時間音声生成アプリケーションに対する実行可能な解決策を提示しました。
右脳半球からの音声復号化の可能性を実証し、失語症患者に新しい治療の希望を与えました。
高密度電極アレイと低密度電極アレイの両方で卓越した復号性能を示し、臨床での実用性を大幅に高めました。
研究チームはオープンソースの復号化フレームワークをリリースし、音声科学の研究と音声プロテーゼの開発を加速するのに役立ちます。
この突破口となる研究は、神経科学と人工知能の分野に新しい扉を開きました。将来的には、音声脳機械インターフェースによって、沈黙の脳に言葉の力が取り戻される可能性があります。