SigWavNet : Apprentissage d'un réseau de traitement de signaux multi-résolution pour la reconnaissance des émotions vocales
Application des réseaux d’ondelettes multi-résolution pour la reconnaissance des émotions vocales : SigWavNet
Contexte académique
La reconnaissance des émotions vocales (Speech Emotion Recognition, SER) joue un rôle crucial dans les interactions homme-machine et l’évaluation psychologique. Elle identifie les états émotionnels des locuteurs en analysant les signaux vocaux et trouve des applications variées dans les centres d’appels d’urgence, les soins de santé et les assistants virtuels IA. Cependant, malgré les progrès réalisés dans ce domaine, des défis subsistent, notamment la complexité du système, l’insuffisance de distinction des caractéristiques et les interférences dues au bruit. Pour répondre à ces défis, une équipe de recherche de l’Université du Québec, de l’Université Concordia et de l’Université du Québec à Montréal a proposé un nouveau cadre d’apprentissage profond de bout en bout appelé SigWavNet, qui extrait directement des caractéristiques significatives des signaux vocaux bruts et améliore la précision de la reconnaissance des émotions grâce à une analyse multi-résolution.
Source de l’article
Cet article a été co-écrit par Alaa Nfissi, Wassim Bouachir, Nizar Bouguila et Brian Mishara, issus respectivement de l’Université du Québec, de l’Université Concordia et de l’Université du Québec à Montréal. Il a été publié en 2025 dans la revue IEEE Transactions on Affective Computing, sous le titre “SigWavNet: Learning Multiresolution Signal Wavelet Network for Speech Emotion Recognition”.
Processus de recherche
1. Motivation et problématique
Les systèmes actuels de reconnaissance des émotions vocales présentent des limites dans le traitement des expressions émotionnelles complexes, en particulier en ce qui concerne l’extraction de caractéristiques et la robustesse face au bruit. Les méthodes traditionnelles reposent souvent sur un découpage des segments vocaux de longueur fixe, incapable de capturer pleinement la distribution des informations émotionnelles. De plus, les interférences sonores affectent considérablement les performances des systèmes dans des applications réelles. Pour résoudre ces problèmes, SigWavNet propose un cadre d’apprentissage profond de bout en bout basé sur la transformation en ondelettes discrète rapide (Fast Discrete Wavelet Transform, FDWT), combinant des réseaux neuronaux convolutifs dilatés unidimensionnels (1D Dilated CNN) et des unités récurrentes bidirectionnelles (Bidirectional GRU) pour capturer les caractéristiques spatiales et temporelles des signaux vocaux.
2. Méthodologie et processus de recherche
a) Transformation en ondelettes discrète rapide (FDWT)
Le cœur de SigWavNet est la couche FDWT, utilisée pour décomposer de manière multi-niveaux les signaux vocaux bruts. La FDWT simule des filtres passe-bas et passe-haut via des couches de convolution, décomposant progressivement le signal. Chaque niveau de décomposition génère des coefficients d’approximation (résultat passe-bas) et des coefficients de détail (résultat passe-haut), tout en maintenant l’orthogonalité grâce aux filtres quadrature conjugués (Conjugate Quadrature Filter, CQF). L’avantage de la FDWT réside dans sa capacité à effectuer une analyse localisée simultanément dans les domaines temporel et fréquentiel, essentielle pour capturer les caractéristiques émotionnelles des signaux vocaux.
b) Seuil dur asymétrique apprenable (Learnable Asymmetric Hard Thresholding, LAHT)
Pour améliorer la parcimonie de la représentation des caractéristiques, SigWavNet introduit une fonction de seuil dur asymétrique apprenable. Cette fonction combine deux fonctions sigmoïdes inversées et peut ajuster dynamiquement les seuils, éliminant efficacement le bruit tout en préservant les caractéristiques liées aux émotions.
c) CNN dilaté 1D et mécanisme d’attention spatiale
Sur la base des caractéristiques multi-niveaux extraites par la FDWT, SigWavNet utilise un CNN dilaté 1D pour capturer davantage les relations locales. Le CNN dilaté augmente le champ perceptuel des noyaux de convolution, permettant de traiter des informations temporelles à longue portée. Le mécanisme d’attention spatiale ajuste dynamiquement les poids des caractéristiques, mettant en avant les régions émotionnellement significatives.
d) GRU bidirectionnel et mécanisme d’attention temporelle
Pour capturer les modèles temporels des signaux vocaux, SigWavNet intègre un réseau GRU bidirectionnel. Le GRU bidirectionnel traite simultanément les informations temporelles avant et arrière, tandis que le mécanisme d’attention temporelle identifie les régions clés contribuant à la reconnaissance des émotions.
e) Pondération des canaux et regroupement moyen global
À la dernière étape de l’extraction des caractéristiques, SigWavNet ajuste dynamiquement les poids des différentes bandes de fréquences via une couche de pondération des canaux, puis combine un regroupement moyen global (Global Average Pooling, GAP) pour compresser les cartes de caractéristiques en valeurs scalaires. Enfin, une couche Log Softmax produit les probabilités de classification des émotions.
3. Expériences et résultats
a) Jeux de données
L’étude utilise deux jeux de données publics de reconnaissance des émotions vocales : IEMOCAP et Emo-DB. IEMOCAP comprend 12 heures de données audio couvrant diverses catégories émotionnelles ; Emo-DB contient 535 enregistrements en allemand, simulant sept états émotionnels. Pour assurer l’équité des expériences, l’étude adopte une validation croisée en 10 blocs et utilise un échantillonnage aléatoire stratifié pour diviser les ensembles d’entraînement et de test.
b) Résultats expérimentaux
SigWavNet obtient d’excellents résultats sur les jeux de données IEMOCAP et Emo-DB. Sur IEMOCAP, le modèle atteint une précision globale de 84,8 % et un score F1 de 85,1 % ; sur Emo-DB, la précision atteint 90,1 % avec un score F1 de 90,3 %. En particulier, SigWavNet excelle dans la reconnaissance des émotions “neutres” et “tristes”, avec des précisions respectives de 97 % et 95,4 %. De plus, la matrice de confusion montre que le modèle rencontre certains défis pour distinguer des émotions comme la “colère” et la “tristesse”.
c) Comparaison avec les méthodes existantes
SigWavNet surpasse plusieurs méthodes de reconnaissance des émotions vocales existantes sur les jeux de données IEMOCAP et Emo-DB, y compris les modèles basés sur l’extraction de caractéristiques MFCC et la classification par CNN. Son avantage réside dans sa capacité à extraire directement des caractéristiques multi-résolution des signaux vocaux bruts et à combiner des mécanismes d’attention spatiale et temporelle pour capturer les informations émotionnelles.
4. Étude d’ablation
Pour valider le rôle des différents composants de SigWavNet, une étude d’ablation a été menée. Les résultats montrent que le seuil dur asymétrique apprenable et les noyaux d’ondelettes appris indépendamment par niveau améliorent significativement les performances du modèle. De plus, l’introduction du GRU bidirectionnel et du mécanisme d’attention temporelle renforce encore la capacité du modèle à capturer les informations temporelles.
Conclusion et importance
SigWavNet combine une analyse multi-résolution, un seuillage apprenable et des mécanismes d’attention pour améliorer considérablement la précision et la robustesse de la reconnaissance des émotions vocales. Son cadre d’apprentissage profond de bout en bout simplifie non seulement le processus d’extraction des caractéristiques, mais permet également de faire face efficacement aux interférences sonores dans des applications réelles. Cette recherche ouvre de nouvelles perspectives dans le domaine de la reconnaissance des émotions vocales et présente un large éventail d’applications potentielles dans les interactions homme-machine et l’évaluation de la santé mentale.
Points forts de la recherche
- Analyse multi-résolution : SigWavNet utilise la transformation en ondelettes discrète rapide pour décomposer les signaux vocaux à plusieurs niveaux, capturant efficacement les informations temporelles et fréquentielles des caractéristiques émotionnelles.
- Seuillage dur asymétrique apprenable : En ajustant dynamiquement les seuils, le modèle élimine mieux le bruit tout en préservant les caractéristiques émotionnelles.
- Mécanismes d’attention spatiale et temporelle : En combinant un CNN dilaté 1D et un GRU bidirectionnel, SigWavNet capture simultanément les caractéristiques locales et globales des signaux vocaux.
- Cadre de bout en bout : SigWavNet extrait directement des caractéristiques des signaux vocaux bruts, évitant ainsi le processus complexe d’extraction manuelle des caractéristiques propre aux méthodes traditionnelles.
Perspectives
Les recherches futures pourraient explorer davantage l’applicabilité de SigWavNet dans des environnements multilingues et multi-dialectes, ainsi que tenter de l’appliquer à des scénarios réels plus complexes, tels que la reconnaissance en temps réel des émotions vocales et l’analyse émotionnelle multimodale.