Reconnaissance robuste des émotions vocales à deux flux incorporant des modulations spectro-temporelles
Étude sur la reconnaissance robuste des émotions vocales à deux flux basée sur les caractéristiques de modulation spectro-temporelle
Contexte académique
La reconnaissance des émotions vocales (Speech Emotion Recognition, SER) est une technologie qui identifie les émotions en analysant le contenu émotionnel dans la parole humaine. Elle a un potentiel d’application considérable dans l’interaction homme-machine, les systèmes de gestion du service client et les domaines médicaux. Cependant, bien que les modèles SER basés sur l’apprentissage profond aient montré des performances impressionnantes dans des environnements contrôlés, leur performance diminue significativement dans des conditions de bruit réelles. Le bruit (comme le bruit de la circulation ou celui des ventilateurs) peut sérieusement perturber les signaux vocaux, entraînant une baisse drastique de la précision des systèmes de reconnaissance des émotions. Par conséquent, le développement d’un système SER robuste dans des environnements bruyants est devenu une direction de recherche importante.
Les systèmes SER traditionnels reposent généralement sur des caractéristiques acoustiques telles que les coefficients cepstraux de fréquence Mel (Mel-Frequency Cepstral Coefficients, MFCC) et les spectrogrammes Mel. Cependant, ces caractéristiques sont facilement affectées par le bruit dans des environnements bruyants, ce qui entraîne une baisse des performances de reconnaissance. Récemment, les chercheurs ont commencé à explorer d’autres caractéristiques plus robustes, comme les caractéristiques de modulation spectro-temporelle (Spectro-Temporal Modulation, STM). Les caractéristiques STM, en simulant les mécanismes de traitement du cortex auditif humain, peuvent mieux capturer les informations émotionnelles dans les signaux vocaux et montrent une robustesse accrue dans des environnements bruyants.
Source de l’article
Cet article a été co-rédigé par Yih-Liang Shen, Pei-Chin Hsieh et Tai-Shih Chi du département d’ingénierie électrique et électronique de l’Université nationale Yang Ming Chiao Tung de Taïwan, et publié en août 2021 dans le « Journal of LaTeX Class Files ». La recherche a bénéficié du soutien du Ministère des sciences et technologies de Taïwan.
Processus de recherche
1. Objectifs de la recherche
Cet article propose un modèle SER à deux flux combinant des caractéristiques de modulation spectro-temporelle avec des caractéristiques acoustiques traditionnelles, dans le but d’améliorer la robustesse du modèle dans des environnements bruyants. L’étude valide l’efficacité de ce modèle en utilisant les paradigmes “entraînement propre - test bruyant” sur les ensembles de données EMODB en allemand et RAVDESS en anglais.
2. Préparation des données
L’étude utilise deux ensembles de données SER publics : EMODB et RAVDESS. L’ensemble de données EMODB contient 535 échantillons vocaux en allemand couvrant 7 émotions ; l’ensemble de données RAVDESS contient 1440 échantillons vocaux en anglais couvrant 8 émotions. Tous les échantillons vocaux ont été uniformément traités pour avoir une durée de 3 secondes, les parties insuffisantes étant remplies de zéros.
3. Extraction des caractéristiques
L’étude utilise deux types de caractéristiques : - Spectrogramme Mel : Généré avec une longueur de fenêtre de 40 ms, un saut de 10 ms, une transformation de Fourier rapide (FFT) à 2048 points et 128 bandes de fréquence Mel. - Caractéristiques de modulation spectro-temporelle : Générées en appliquant des filtres de modulation au spectrogramme Mel. Les paramètres de vitesse (ω) des filtres de modulation sont fixés à ±2, ±4, ±8, ±16, ±32 Hz, et les paramètres d’échelle (ω) à 0,5, 1, 2, 4 cycles/20 bandes Mel.
4. Conception du modèle
L’étude propose un modèle de réseau neuronal récurrent convolutif à deux flux basé sur l’attention (Two-Stream Attention-based Convolutional Recurrent Neural Network, TACRNN), comprenant deux branches : - Branche spectrogramme Mel : Utilise des couches convolutives pour extraire les caractéristiques du spectrogramme Mel, puis les intègre via des opérations de max-pooling et des couches entièrement connectées. - Branche de modulation : Adopte une architecture similaire à celle de la branche spectrogramme Mel pour extraire des informations des caractéristiques de modulation spectro-temporelle. Les caractéristiques des deux branches sont concaténées, puis introduites dans un réseau BiLSTM (Bi-directional Long Short-Term Memory) et une couche d’attention, avant d’être classifiées par un classificateur Softmax.
5. Paramètres expérimentaux
L’étude utilise une validation croisée en 10 plis, avec l’optimiseur Adam pour l’entraînement du modèle et la fonction de perte d’entropie croisée. Les expériences sont réalisées dans des conditions propres et bruyantes, le bruit incluant du bruit blanc et du bruit du défi DNS, avec des rapports signal/bruit (SNR) fixés à 5, 10, 15 et 20 dB.
Résultats principaux
1. Performance dans des conditions propres
Dans des conditions propres, le modèle ACRNN utilisant uniquement les caractéristiques du spectrogramme Mel surpasse le modèle utilisant uniquement les caractéristiques STM. Cependant, le modèle TACRNN à deux flux, combinant les deux types de caractéristiques, obtient des performances comparables aux modèles de référence sur les ensembles de données EMODB et RAVDESS.
2. Robustesse dans des conditions de bruit
Dans des conditions de bruit, le modèle TACRNN montre une robustesse significative. Dans le cas de bruit blanc et de bruit du défi DNS, le modèle TACRNN surpasse le modèle utilisant uniquement les caractéristiques du spectrogramme Mel ainsi que d’autres modèles de référence dans la plupart des conditions de SNR. L’analyse statistique montre que l’amélioration des performances du modèle TACRNN dans des environnements bruyants est statistiquement significative.
3. Analyse des poids des caractéristiques de modulation
L’étude révèle que le modèle TACRNN accorde plus d’importance à certaines sorties spécifiques des filtres de modulation pendant l’entraînement, comme les filtres avec une vitesse (rate) de ±2 Hz et une échelle (scale) de 4 cycles/20 bandes Mel. Ces filtres peuvent capturer la structure harmonique et les contours des formants de la voix, des caractéristiques cruciales pour la perception vocale dans des environnements bruyants.
Conclusion et signification
Cet article améliore significativement la robustesse des systèmes SER dans des environnements bruyants en introduisant des caractéristiques de modulation spectro-temporelle dans les modèles de réseaux neuronaux. Les résultats montrent que les caractéristiques STM surpassent les caractéristiques acoustiques traditionnelles dans des conditions de bruit, offrant ainsi de nouvelles directions pour les recherches futures sur le SER.
Points forts de la recherche
- Méthode de fusion de caractéristiques innovante : Introduit pour la première fois un modèle SER à deux flux combinant des caractéristiques STM avec des caractéristiques de spectrogramme Mel.
- Amélioration significative de la robustesse : Le modèle TACRNN présente des performances supérieures aux modèles de référence dans diverses conditions de bruit.
- Analyse approfondie des caractéristiques : En analysant les poids des caractéristiques de modulation, il met en lumière les caractéristiques vocales clés auxquelles le modèle prête attention dans des environnements bruyants.
Valeur applicative
Cette étude fournit un support théorique et technique pour le développement de systèmes SER robustes dans des environnements réels, promettant de jouer un rôle important dans les services clients intelligents et le calcul émotionnel.
Autres informations précieuses
L’étude indique également que les travaux futurs pourraient optimiser davantage le choix des paramètres des filtres de modulation et explorer la fusion d’autres caractéristiques acoustiques avec les caractéristiques STM. De plus, l’étude prévoit d’étendre le modèle à des environnements incluant de la réverbération afin d’évaluer ses capacités de généralisation.