基于图神经网络的对话情绪识别研究

基于图神经网络的对话情感识别新方法

研究背景

情感识别(Emotion Recognition, ER)是人机交互(Human-Computer Interaction, HCI)中的重要组成部分,旨在通过分析语音、文本、视频等多模态数据,识别人类的情感状态。这一技术在医疗、教育、社交媒体和聊天机器人等领域具有广泛的应用前景。近年来,情感识别的研究逐渐从单句情感分析转向对话情感识别(Emotion Recognition in Conversations, ERC),即识别对话中每一句话的情感状态。与单句情感分析相比,对话情感识别更具挑战性,因为对话中的情感不仅受当前语句的影响,还受到上下文语境和说话者之间互动的影响。

传统的对话情感识别方法主要依赖于循环神经网络(RNN)和长短期记忆网络(LSTM)等序列模型。然而,这些方法在处理长距离依赖和复杂语境时存在一定的局限性。为了克服这些问题,研究者开始探索基于图神经网络(Graph Neural Networks, GNNs)的方法,将对话建模为图结构,利用图中的节点和边捕捉对话中的语境和说话者之间的依赖关系。尽管如此,现有的图神经网络方法在处理情感转移(Emotion Shift)和说话者独立性(Speaker Independence)等问题时仍存在不足。

针对上述问题,来自IIT MadrasNational Institute of Standards and TechnologyUniversity of Maryland的研究团队提出了一种新的图结构构建方法——Line Conversation Graphs (LineConGraphs),并基于该方法开发了两种新模型:LineConGCNLineConGAT。相关研究成果于2025年发表在IEEE Transactions on Affective Computing期刊上。

研究方法与流程

1. Line Conversation Graphs的构建

LineConGraphs的核心思想是将对话中的每一句话(utterance)建模为图中的一个节点,并通过边连接相邻的节点。具体来说,每个节点与其前一句和后一句节点相连,从而捕捉短期的语境信息。此外,为了捕捉长距离的依赖关系,研究者使用了多层图卷积网络(GCN)或图注意力网络(GAT)来扩展节点的感受野。

在实验中,研究者使用了两大数据集:IEMOCAPMELD。IEMOCAP包含151段对话,涉及10位说话者;MELD包含1,433段对话,涉及304位说话者。每段对话被建模为一个独立的图,图中节点的特征通过预训练的EmoBERTa模型提取。

2. 情感转移信息的嵌入

为了捕捉对话中的情感转移现象,研究者将情感转移信息嵌入到图的边中。在GCN模型中,情感转移被编码为边的权重;在GAT模型中,情感转移被编码为边的特征。具体来说,如果相邻两句话的情感状态发生变化,则边的权重或特征被标记为“shift”;否则标记为“no shift”。

3. 模型训练与评估

基于LineConGraphs,研究者开发了两种模型:
- LineConGCN:基于图卷积网络的模型,使用两层GCN层和ReLU激活函数。
- LineConGAT:基于图注意力网络的模型,使用两层GATv2层,动态计算节点之间的注意力权重。

模型的训练使用PyTorch Geometric框架,损失函数为分类交叉熵(Categorical Cross-Entropy),优化器为AdamW。研究者通过加权F1分数(Weighted F1 Score)评估模型性能,并与现有的最先进方法进行对比。

研究结果与讨论

1. 模型性能对比

实验结果表明,LineConGAT模型在MELD数据集上的加权F1分数达到76.50%,在IEMOCAP数据集上达到64.58%,均优于现有的最先进方法。此外,嵌入情感转移信息进一步提升了GCN模型的性能,但在GAT模型中效果不明显。研究者认为,这可能是因为GAT模型通过注意力机制已经能够动态捕捉情感转移现象。

2. 说话者信息的嵌入

为了探讨说话者信息对模型性能的影响,研究者将说话者嵌入(Speaker Embeddings)引入模型。结果显示,在MELD数据集中,说话者嵌入对模型性能的提升有限;而在IEMOCAP数据集中,说话者嵌入甚至略微降低了模型性能。这表明,说话者信息在对话情感识别中的作用可能因数据集而异。

3. 完全连接图与LineConGraphs的对比

为了验证LineConGraphs的有效性,研究者还构建了完全连接图(Fully Connected Conversation Graphs),即图中每两个节点都相连。实验结果显示,LineConGraphs在捕捉局部语境和情感转移方面表现更优,而完全连接图由于信息过载,导致模型性能下降。

4. 错误分析

通过混淆矩阵(Confusion Matrix),研究者分析了模型在不同情感类别上的表现。结果显示,模型在识别“中性”(Neutral)情感时表现最好,但在区分“愤怒”(Anger)和“沮丧”(Frustration)、“快乐”(Happy)和“兴奋”(Excited)等相似情感时存在一定的混淆。嵌入情感转移信息后,模型对“中性”情感的误分类率显著降低。

研究结论与未来展望

本研究提出了一种新的图结构构建方法——LineConGraphs,并基于该方法开发了LineConGCN和LineConGAT模型。实验结果表明,LineConGraphs能够有效捕捉对话中的短期和长期语境信息,提升情感识别的准确性。特别是LineConGAT模型,在MELD和IEMOCAP数据集上均取得了最先进的性能。

未来的研究方向包括:
1. 将多模态数据(如音频和视频)引入LineConGraphs,进一步提升情感识别的准确性;
2. 探索动态语境建模方法,使模型能够根据对话内容自动调整语境窗口大小;
3. 开发能够处理说话者信息的图神经网络模型,特别是在大规模数据集上的应用。

研究亮点

  1. 创新性图结构构建方法:LineConGraphs通过连接相邻的对话语句,有效捕捉了对话中的短期语境信息,同时通过多层GNN扩展了长距离依赖的建模能力。
  2. 情感转移信息的嵌入:首次将情感转移信息引入图神经网络模型,显著提升了GCN模型在情感识别中的性能。
  3. 说话者独立性的探索:通过对比实验,揭示了说话者信息在对话情感识别中的作用,为未来的研究提供了重要参考。
  4. 多数据集验证:在IEMOCAP和MELD两大基准数据集上进行实验,验证了模型在不同场景下的泛化能力。

本研究为对话情感识别提供了一种新的思路和方法,具有重要的理论价值和实际应用前景。