Adaptation de domaine phonétiquement ancrée pour la reconnaissance d'émotions vocales multilingues

Adaptation par domaine ancré phonétiquement pour la reconnaissance des émotions dans la parole inter-langues

Contexte académique

La reconnaissance des émotions vocales (Speech Emotion Recognition, SER) présente un large éventail d’applications dans les agents intelligents, les robots sociaux, les assistants vocaux et les systèmes de centres d’appels automatisés. Avec le développement de la mondialisation, la demande pour la reconnaissance des émotions vocales inter-langues (Cross-lingual SER) augmente de manière significative. Cependant, le principal défi de la reconnaissance des émotions inter-langues réside dans les différences entre les modes d’expression émotionnelle et les caractéristiques acoustiques entre différentes langues. Les méthodes traditionnelles abordent principalement ce problème du point de vue informatique, en s’adaptant aux caractéristiques, domaines et étiquettes pour répondre aux problèmes inter-langues, mais elles négligent souvent les similarités sous-jacentes entre les langues.

Cette étude vise à résoudre le problème d’adaptation linguistique dans la reconnaissance des émotions vocales inter-langues en introduisant des phonèmes voyelles (vowel phonemes) comme points d’ancrage. Plus précisément, les auteurs explorent les similarités des voyelles associées à des émotions spécifiques dans différentes langues et utilisent ces similarités comme ponts pour la reconnaissance des émotions inter-langues. À travers cette méthode, l’équipe de recherche espère améliorer les performances de la reconnaissance des émotions inter-langues, en particulier dans des scénarios d’apprentissage non supervisé (unsupervised learning).

Source de l’article

Cet article a été réalisé par une équipe de recherche de l’Université nationale Tsing Hua (National Tsing Hua University), de l’Université du Texas à Dallas (University of Texas at Dallas) et de l’Université Carnegie Mellon (Carnegie Mellon University). Les principaux auteurs incluent Shreya G. Upadhyay, Luz Martinez-Lucas, William Katz, Carlos Busso et Chi-Chun Lee. L’article a été publié en octobre 2024 dans la revue IEEE Transactions on Affective Computing.

Processus de recherche

1. Objectifs et cadre de recherche

L’objectif de cette étude est d’améliorer les performances de la reconnaissance des émotions vocales inter-langues en exploitant les similarités des phonèmes voyelles. Le cadre de recherche est divisé en deux parties : premièrement, les chercheurs analysent les similarités des voyelles associées à des émotions spécifiques dans différentes langues, en particulier celles qui sont importantes pour la reconnaissance des émotions ; deuxièmement, ils utilisent ces similarités comme points d’ancrage pour concevoir un modèle de reconnaissance des émotions inter-langues non supervisé.

2. Jeux de données et prétraitement

L’étude utilise trois jeux de données de parole émotionnelle naturelle : MSP-Podcast (anglais américain), BIIC-Podcast (mandarin taïwanais) et Dusha (russe). Ces ensembles de données ont été annotés manuellement pour assurer l’exactitude des étiquettes émotionnelles. Pour effectuer une analyse phonétique, l’équipe de recherche a utilisé l’outil Montreal Forced Aligner (MFA) pour aligner les échantillons vocaux sur les phonèmes, puis les a convertis en notation API (Alphabet Phonétique International).

3. Analyse des similarités des voyelles

Les chercheurs ont exploré les similarités des voyelles dans différentes langues grâce à une analyse des formants (Formant analysis) et des représentations de caractéristiques Wav2Vec2.0. Plus précisément, l’équipe de recherche a calculé les formants F1 et F2 des voyelles et a utilisé la technique de visualisation t-SNE pour montrer les similarités des caractéristiques des voyelles dans différentes langues. L’étude a également élargi l’analyse pour inclure non seulement les monophtongues (monophthongs), mais aussi les diphtongues (diphthongs), afin de mieux comprendre le comportement des voyelles dans la reconnaissance des émotions.

4. Sélection des points d’ancrage

Sur la base des distances et des similarités des caractéristiques des voyelles, l’équipe de recherche a sélectionné les voyelles qui se comportent de manière cohérente dans différentes langues comme points d’ancrage. Les méthodes spécifiques incluent le calcul de la similarité cosinus (cosine similarity) et de la distance euclidienne (Euclidean distance), ainsi que la détermination des meilleurs points d’ancrage via un score combiné (combined score). L’étude propose également une méthode basée sur des groupes d’ancrage (group anchors), en sélectionnant un ensemble de voyelles qui se comportent bien dans la reconnaissance des émotions.

5. Modèle de reconnaissance des émotions inter-langues

L’étude propose un modèle d’adaptation de domaine ancré phonétiquement basé sur un mécanisme d’attention (Attention-based Group-vowel-anchored Cross-lingual SER, AGA-CL). Ce modèle comprend deux branches : une branche de classification des émotions et une branche d’adaptation de domaine ancrée phonétiquement. La branche de classification des émotions utilise les caractéristiques extraites par Wav2Vec2.0 pour classer les émotions, tandis que la branche d’adaptation de domaine utilise une fonction de perte triplette (triplet loss) pour aligner les caractéristiques des voyelles de la langue source et de la langue cible.

Résultats principaux

1. Résultats de l’analyse des similarités des voyelles

Les résultats montrent que certaines voyelles présentent des similarités liées aux émotions dans différentes langues. Par exemple, les voyelles /i/ et /a/ montrent une forte similarité dans les émotions de joie et de colère. Grâce à l’analyse des formants et aux représentations des caractéristiques Wav2Vec2.0, l’équipe de recherche a découvert que ces voyelles jouent un rôle important dans la reconnaissance des émotions.

2. Résultats de la sélection des points d’ancrage

Sur la base du score combiné, l’équipe de recherche a sélectionné les voyelles qui se comportent bien dans différentes langues comme points d’ancrage. Par exemple, dans l’émotion de joie, la voyelle /i/ a été choisie comme meilleur point d’ancrage, tandis que les voyelles /o/ et /u/ ont montré des performances inférieures. L’étude a également révélé qu’utiliser des groupes d’ancrage (group anchors) peut améliorer considérablement les performances de reconnaissance des émotions.

3. Performances du modèle

Le modèle proposé AGA-CL a montré d’excellentes performances dans les tâches de reconnaissance des émotions inter-langues. Dans la tâche MSP-Podcast vers BIIC-Podcast, le modèle AGA-CL a atteint un rappel moyen non pondéré (Unweighted Average Recall, UAR) de 58,14 %, soit une amélioration de 6,89 % par rapport aux modèles de base. Dans la tâche BIIC-Podcast vers MSP-Podcast, le modèle AGA-CL a obtenu un UAR de 55,49 %, surpassant également de manière significative les modèles de base.

Conclusion et signification

Cette étude propose une nouvelle méthode de reconnaissance des émotions vocales inter-langues non supervisée en introduisant des phonèmes voyelles comme points d’ancrage. Les résultats montrent que certaines voyelles présentent des similarités liées aux émotions dans différentes langues, et qu’utiliser ces similarités peut améliorer considérablement les performances de la reconnaissance des émotions inter-langues. Cette méthode présente non seulement une valeur scientifique, mais offre également de nouvelles perspectives pour les applications pratiques de la reconnaissance des émotions inter-langues.

Points forts de la recherche

  1. Découverte des similarités des voyelles : L’étude analyse pour la première fois de manière systématique les similarités des voyelles dans la reconnaissance des émotions dans différentes langues, offrant une nouvelle perspective pour la reconnaissance des émotions inter-langues.
  2. Mécanisme d’ancrage phonétique : Le mécanisme d’ancrage phonétique proposé aligne les caractéristiques des voyelles de la langue source et de la langue cible via une fonction de perte triplette, améliorant considérablement les performances de la reconnaissance des émotions inter-langues.
  3. Apprentissage non supervisé : Cette méthode excelle dans les scénarios d’apprentissage non supervisé, réduisant la dépendance aux données annotées dans la langue cible et présentant un large éventail d’applications potentielles.

Travaux futurs

L’équipe de recherche prévoit d’étendre davantage les méthodes d’analyse pour inclure les consonnes (consonants) et les gestes articulatoires (articulatory gestures), afin de mieux comprendre les similarités dans la reconnaissance des émotions inter-langues. De plus, l’équipe prévoit de combiner le mécanisme d’ancrage phonétique avec d’autres techniques avancées d’adaptation de domaine pour améliorer encore les performances du modèle.