スペクトル時間変調を組み込んだ二重ストリームの頑健な音声感情認識
スペクトル-時間変調特徴を用いた二重ストリームによるロバストな音声感情認識に関する研究 学術的背景 音声感情認識(Speech Emotion Recognition, SER)は、人間の音声に含まれる感情的内容を分析して感情を識別する技術です。これは、ヒューマンコンピュータインタラクション、カスタマーサービス管理システム、および医療分野など、幅広い応用可能性を持っています。しかし、深層学習に基づくSERモデルは制御された環境では優れたパフォーマンスを示しますが、現実世界のノイズ条件下ではその性能が大幅に低下します。交通騒音やファンの音などのノイズは、音声信号を妨害し、感情認識システムの精度を大きく低下させます。したがって、ノイズ環境下でも堅牢なSERシステムの開発が重要な研究課題となってい...