LineConvGraphs: Graphiques de Conversation en Ligne pour la Reconnaissance Efficace des Émotions Utilisant les Réseaux de Neurones Graphiques
Une nouvelle méthode de reconnaissance des émotions dans les conversations basée sur les réseaux neuronaux graphiques
Contexte de recherche
La reconnaissance des émotions (Emotion Recognition, ER) est une composante essentielle de l’interaction homme-machine (Human-Computer Interaction, HCI), visant à identifier les états émotionnels humains en analysant des données multimodales telles que la voix, le texte et la vidéo. Cette technologie présente un large éventail d’applications potentielles dans les domaines de la santé, de l’éducation, des médias sociaux et des chatbots. Ces dernières années, la recherche en reconnaissance des émotions s’est progressivement déplacée de l’analyse des émotions dans des phrases individuelles vers la reconnaissance des émotions dans les conversations (Emotion Recognition in Conversations, ERC), c’est-à-dire l’identification des émotions pour chaque phrase dans une conversation. Comparée à l’analyse des émotions dans des phrases isolées, la reconnaissance des émotions dans les conversations est plus complexe, car les émotions dans une conversation sont influencées non seulement par la phrase actuelle, mais aussi par le contexte et les interactions entre les locuteurs.
Les méthodes traditionnelles de reconnaissance des émotions dans les conversations reposaient principalement sur des modèles séquentiels tels que les réseaux neuronaux récurrents (RNN) et les réseaux à mémoire à long terme et à court terme (LSTM). Cependant, ces approches présentent certaines limites lorsqu’il s’agit de gérer des dépendances à longue distance et des contextes complexes. Pour surmonter ces problèmes, les chercheurs ont commencé à explorer des approches basées sur les réseaux neuronaux graphiques (Graph Neural Networks, GNNs), en modélisant les conversations sous forme de structures graphiques et en utilisant les nœuds et les arêtes pour capturer le contexte et les dépendances entre les locuteurs. Malgré cela, les méthodes existantes basées sur les réseaux neuronaux graphiques présentent encore des lacunes dans la gestion des changements d’émotions (Emotion Shift) et de l’indépendance des locuteurs (Speaker Independence).
Pour répondre à ces problèmes, une équipe de recherche de IIT Madras, du National Institute of Standards and Technology et de l’University of Maryland a proposé une nouvelle méthode de construction de graphes appelée Line Conversation Graphs (LineConGraphs) et a développé deux nouveaux modèles : LineConGCN et LineConGAT. Les résultats de cette recherche ont été publiés en 2025 dans la revue IEEE Transactions on Affective Computing.
Méthodes et processus de recherche
1. Construction des Line Conversation Graphs
L’idée principale derrière les LineConGraphs est de modéliser chaque phrase (utterance) dans une conversation comme un nœud dans un graphe, et de connecter les nœuds adjacents via des arêtes. Plus précisément, chaque nœud est connecté aux nœuds correspondant aux phrases précédentes et suivantes, permettant ainsi de capturer les informations contextuelles à court terme. De plus, pour capturer les dépendances à longue distance, les chercheurs ont utilisé plusieurs couches de réseaux convolutifs graphiques (GCN) ou de réseaux d’attention graphique (GAT) afin d’étendre le champ récepteur des nœuds.
Dans les expériences, les chercheurs ont utilisé deux grands ensembles de données : IEMOCAP et MELD. L’IEMOCAP contient 151 dialogues impliquant 10 locuteurs, tandis que le MELD contient 1 433 dialogues impliquant 304 locuteurs. Chaque dialogue a été modélisé comme un graphe indépendant, avec les caractéristiques des nœuds extraites à l’aide du modèle pré-entraîné EmoBERTa.
2. Intégration des informations de changement d’émotions
Afin de capturer les phénomènes de changement d’émotions dans les conversations, les chercheurs ont intégré des informations sur les changements d’émotions dans les arêtes du graphe. Dans le modèle GCN, les changements d’émotions ont été encodés sous forme de poids d’arête ; dans le modèle GAT, ils ont été encodés comme des caractéristiques d’arête. Plus précisément, si l’état émotionnel change entre deux phrases adjacentes, le poids ou la caractéristique de l’arête est marqué comme “shift” ; sinon, il est marqué comme “no shift”.
3. Entraînement et évaluation des modèles
Sur la base des LineConGraphs, les chercheurs ont développé deux modèles :
- LineConGCN : un modèle basé sur des réseaux convolutifs graphiques, utilisant deux couches GCN et une fonction d’activation ReLU.
- LineConGAT : un modèle basé sur des réseaux d’attention graphique, utilisant deux couches GATv2 pour calculer dynamiquement les poids d’attention entre les nœuds.
L’entraînement des modèles a été réalisé à l’aide du framework PyTorch Geometric, avec une fonction de perte de type entropie croisée catégorielle (Categorical Cross-Entropy) et l’optimiseur AdamW. Les performances des modèles ont été évaluées à l’aide du score F1 pondéré (Weighted F1 Score) et comparées aux méthodes les plus avancées existantes.
Résultats et discussions
1. Comparaison des performances des modèles
Les résultats expérimentaux montrent que le modèle LineConGAT atteint un score F1 pondéré de 76,50 % sur l’ensemble de données MELD et de 64,58 % sur l’ensemble de données IEMOCAP, surpassant ainsi les méthodes les plus avancées existantes. De plus, l’intégration des informations de changement d’émotions améliore encore les performances du modèle GCN, mais son effet est moins marqué dans le modèle GAT. Les chercheurs pensent que cela pourrait être dû au fait que le modèle GAT est déjà capable de capturer dynamiquement les changements d’émotions grâce à son mécanisme d’attention.
2. Intégration des informations sur les locuteurs
Pour examiner l’impact des informations sur les locuteurs sur les performances des modèles, les chercheurs ont introduit des embeddings de locuteurs (Speaker Embeddings) dans les modèles. Les résultats montrent que, dans l’ensemble de données MELD, les embeddings de locuteurs ont un impact limité sur les performances des modèles ; tandis que dans l’ensemble de données IEMOCAP, leur introduction a même légèrement réduit les performances. Cela suggère que l’importance des informations sur les locuteurs dans la reconnaissance des émotions dans les conversations peut varier selon l’ensemble de données.
3. Comparaison entre les graphes totalement connectés et les LineConGraphs
Pour valider l’efficacité des LineConGraphs, les chercheurs ont également construit des graphes totalement connectés (Fully Connected Conversation Graphs), où chaque paire de nœuds est connectée. Les résultats expérimentaux montrent que les LineConGraphs surpassent les graphes totalement connectés en termes de capture des informations contextuelles locales et des changements d’émotions, alors que les graphes totalement connectés, en raison d’une surcharge d’informations, entraînent une baisse des performances des modèles.
4. Analyse des erreurs
À l’aide de matrices de confusion (Confusion Matrix), les chercheurs ont analysé les performances des modèles dans différentes catégories d’émotions. Les résultats montrent que les modèles obtiennent les meilleurs résultats dans la reconnaissance de l’émotion “neutre” (Neutral), mais rencontrent certaines difficultés pour distinguer des émotions similaires comme “colère” (Anger) et “frustration” (Frustration), ou “joie” (Happy) et “excitation” (Excited). L’intégration des informations de changement d’émotions a significativement réduit le taux de mauvaise classification de l’émotion “neutre”.
Conclusion et perspectives futures
Cette étude propose une nouvelle méthode de construction de graphes appelée LineConGraphs, et développe les modèles LineConGCN et LineConGAT sur cette base. Les résultats expérimentaux montrent que les LineConGraphs peuvent efficacement capturer les informations contextuelles à court et à long terme dans les conversations, améliorant ainsi la précision de la reconnaissance des émotions. En particulier, le modèle LineConGAT a obtenu des performances de pointe sur les ensembles de données MELD et IEMOCAP.
Les directions futures de recherche incluent :
1. L’intégration de données multimodales (telles que l’audio et la vidéo) dans les LineConGraphs pour améliorer encore la précision de la reconnaissance des émotions ;
2. L’exploration de méthodes de modélisation de contexte dynamique, permettant aux modèles d’ajuster automatiquement la taille de la fenêtre contextuelle en fonction du contenu de la conversation ;
3. Le développement de modèles de réseaux neuronaux graphiques capables de traiter les informations sur les locuteurs, en particulier dans des ensembles de données à grande échelle.
Points forts de la recherche
- Méthode innovante de construction de graphes : Les LineConGraphs, en connectant les phrases adjacentes dans une conversation, capturent efficacement les informations contextuelles à court terme tout en étendant les capacités de modélisation des dépendances à longue distance grâce à plusieurs couches de GNN.
- Intégration des informations de changement d’émotions : Il s’agit de la première fois que des informations de changement d’émotions sont introduites dans des modèles de réseaux neuronaux graphiques, ce qui améliore considérablement les performances du modèle GCN dans la reconnaissance des émotions.
- Exploration de l’indépendance des locuteurs : À travers des expériences comparatives, l’étude met en lumière le rôle des informations sur les locuteurs dans la reconnaissance des émotions dans les conversations, offrant une référence importante pour les recherches futures.
- Validation sur plusieurs ensembles de données : Les expériences ont été réalisées sur deux grands ensembles de données de référence, IEMOCAP et MELD, validant ainsi la capacité de généralisation des modèles dans différents scénarios.
Cette recherche offre une nouvelle approche et méthode pour la reconnaissance des émotions dans les conversations, présentant une valeur théorique importante et des perspectives d’application pratiques prometteuses.