基于文本引导的重建网络在不确定性缺失模态下的情感分析

基于文本引导的重构网络在多模态情感分析中的应用

学术背景

多模态情感分析(Multimodal Sentiment Analysis, MSA)是一项旨在整合文本、视觉和声学信号中的情感表达的研究领域。随着用户生成在线内容的丰富,MSA在提高情感理解和人机交互方面展现出巨大潜力。然而,现有的MSA方法面临两个主要问题:1)在未对齐的多模态数据中,文本的主导作用未被充分利用;2)在不确定缺失模态的情况下,模态的探索不足。这些问题导致情感判断的准确性受到限制,尤其是在实际应用中,背景噪音、传感器故障、面部缺失/遮挡、光线条件不佳、转录缺失等因素可能导致模态的随机缺失。

为了解决这些问题,研究者提出了一种基于文本引导的重构网络(Text-Guided Reconstruction Network, TGRN),旨在处理未对齐序列中的不确定缺失模态问题。该网络通过三个主要模块——文本引导提取模块(TEM)、重构模块(RM)和文本引导融合模块(TFM)——来增强多模态情感分析的鲁棒性。

论文来源

该论文由Piao Shi、Min Hu、Satoshi Nakagawa、Xiangming Zheng、Xuefeng Shi和Fuji Ren共同撰写,作者分别来自合肥工业大学、东京大学、亳州大学和电子科技大学。论文于2021年8月发表在《Journal of LaTeX class files》期刊上,并被IEEE Transactions on Affective Computing接受发表。

研究流程

a) 研究流程

  1. 文本引导提取模块(TEM)
    TEM模块包括文本引导的交叉注意力单元(TCA)和自注意力单元(SA),分别用于捕捉跨模态特征和模态内特征。首先,通过1D时间卷积层处理未完整的模态序列,然后使用位置嵌入(PE)增强序列的时间信息。自注意力单元(SA)通过计算查询(query)、键(key)和值(value)之间的注意力来提取模态内特征,而文本引导的交叉注意力单元(TCA)则利用文本模态的特征来引导和整合视觉和听觉模态的特征。

  2. 重构模块(RM)
    RM模块旨在从不完整的数据中学习语义信息并重构缺失的模态特征。该模块包括增强注意力单元(EA)和三路SENet模块(3SENet)。EA单元用于进一步探索每个模态的交互,而3SENet模块则通过水平、垂直最大池化和全局平均池化操作来提取多维特征,从而提高重构特征的表达能力。

  3. 文本引导融合模块(TFM)
    TFM模块通过渐进式模态混合适应门(PMAG)来探索非语言和语言模态之间的动态相关性,从而解决模态间隙问题。PMAG模块通过计算每个模态的移位向量,并利用这些向量来调整模态表示,最终用于情感预测任务。

b) 研究结果

  1. 文本引导提取模块(TEM)的结果
    TEM模块通过自注意力单元(SA)和文本引导的交叉注意力单元(TCA)有效地提取了文本、视觉和听觉模态的特征。实验表明,文本模态在情感表达中占据主导地位,且通过TCA单元,非语言模态的特征得到了显著增强。

  2. 重构模块(RM)的结果
    RM模块通过EA单元和3SENet模块成功重构了缺失的模态特征。在CMU-MOSI和CH-SIMS数据集上的实验表明,RM模块能够从不完整数据中学习到有效的语义信息,并显著提高了情感分析的准确性。

  3. 文本引导融合模块(TFM)的结果
    TFM模块通过PMAG模块有效地解决了模态间隙问题,并在情感预测任务中取得了优异的性能。实验结果表明,TGRN模型在完整模态和不确定缺失模态条件下均表现出色。

结论与意义

该研究提出的TGRN模型通过文本引导提取、模态重构和融合三个模块,有效地解决了多模态情感分析中的不确定缺失模态问题。实验结果表明,TGRN在CMU-MOSI和CH-SIMS数据集上均优于现有的最先进方法。该模型的科学价值在于其创新性地利用文本模态来引导非语言模态的特征表达,并通过重构模块处理缺失模态问题。此外,TGRN模型在实际应用中具有较高的鲁棒性,能够适应复杂的现实场景。

研究亮点

  1. 文本引导的重要性:该研究首次提出利用文本模态来引导视觉和听觉模态的特征表达,显著提高了多模态情感分析的准确性。
  2. 模态重构的创新:通过增强注意力单元和三路SENet模块,RM模块能够有效地从不完整数据中重构缺失模态特征。
  3. 模态融合的动态性:PMAG模块通过动态调整模态表示,解决了模态间隙问题,进一步提高了情感预测的精度。

其他有价值的信息

该研究还通过T-SNE可视化方法展示了不同模态特征在情感分析中的分布,进一步验证了文本模态在多模态情感分析中的主导作用。此外,研究还通过Bland-Altman图分析了各模块对情感分析结果的影响,证明了TGRN模型的优越性。

该研究为多模态情感分析提供了一种新的解决方案,具有重要的理论意义和应用价值。未来的研究可以进一步探索模型参数的优化和数据集类别不平衡问题的解决,以进一步提高模型的性能。