音声感情認識のための多解像度信号ウェーブレットネットワークの学習

多解像度信号ウェーブレットネットワークの音声感情認識への応用:SigWavNet 学術的背景 音声感情認識(Speech Emotion Recognition, SER)は、人間とコンピュータの相互作用や心理学的評価において重要な役割を果たしています。音声信号を分析することで話者の感情状態を識別し、緊急コールセンターやヘルスケア、仮想AIアシスタントなどの分野で幅広く応用されています。しかし、この分野での顕著な進展にもかかわらず、システムの複雑さ、特徴の識別力不足、およびノイズの干渉といった問題が依然として残っています。これらの課題に対処するため、ケベック大学、コンコルディア大学、およびモントリオールのケベック大学の研究チームは、意味のある特徴を直接音声波形信号から抽出し、多解像度分析を通...

音声感情認識のための音声的アンカードメイン適応

跨言語音声感情認識における音素アンカー領域適応に関する研究 学術的背景 音声感情認識(Speech Emotion Recognition, SER)は、インテリジェントエージェント、ソーシャルロボット、音声アシスタント、自動コールセンターシステムなど、幅広いアプリケーションで重要な役割を果たします。グローバル化の進展に伴い、異なる言語間での感情認識(Cross-lingual SER)の需要が増加しています。しかし、異なる言語間での感情表現や音響特性の違いが、主な課題となっています。従来の研究では、主に計算的な視点から特徴、ドメイン、ラベルの適応によって問題に対処してきましたが、言語間の潜在的な共通性については見過ごされていました。 本研究では、母音音素(vowel phonemes)を跨...

スペクトル時間変調を組み込んだ二重ストリームの頑健な音声感情認識

スペクトル-時間変調特徴を用いた二重ストリームによるロバストな音声感情認識に関する研究 学術的背景 音声感情認識(Speech Emotion Recognition, SER)は、人間の音声に含まれる感情的内容を分析して感情を識別する技術です。これは、ヒューマンコンピュータインタラクション、カスタマーサービス管理システム、および医療分野など、幅広い応用可能性を持っています。しかし、深層学習に基づくSERモデルは制御された環境では優れたパフォーマンスを示しますが、現実世界のノイズ条件下ではその性能が大幅に低下します。交通騒音やファンの音などのノイズは、音声信号を妨害し、感情認識システムの精度を大きく低下させます。したがって、ノイズ環境下でも堅牢なSERシステムの開発が重要な研究課題となってい...