基于互信息的多模态情感分析解耦表示学习

多模态情感分析中的互信息解耦表示学习:一项创新研究

学术背景

随着社交媒体的快速发展,用户生成的多媒体内容(如推文、视频等)数量急剧增加。这些多媒体数据通常包含三种模态:视觉(图像)、声学(语音)和文本。这些数据中隐含着丰富的情感信息,如何自动分析这些情感信息成为了一个重要挑战。多模态情感分析(Multimodal Sentiment Analysis, MSA)旨在利用多种信号来识别潜在的情感和情绪。然而,多模态表示学习是这一领域的核心挑战之一,即如何将不同模态的特征有效地整合为统一的表示。

近年来,研究者提出了两种主要方法来解决这一问题:一种方法是将多模态特征分解为模态不变(modality-invariant)和模态特定(modality-specific)的部分;另一种方法则是利用互信息(Mutual Information, MI)来增强模态的融合效果。这两种方法均取得了一定的成果,但仍存在一些未解决的问题。例如,现有方法通常仅关注模态不变和模态特定信息,而忽略了模态互补信息(modality-complementary information)的作用。此外,多模态特征的解耦和信息量的定量分析也尚未得到充分研究。

论文来源

本论文由Hao SunZiwei NiuHongyi WangXinyao YuJiaqing LiuYen-Wei ChenLanfen Lin共同撰写。其中,Hao SunZiwei Niu为共同第一作者,Yen-Wei ChenLanfen Lin为通讯作者。作者分别来自浙江大学计算机科学与技术学院日本立命馆大学信息科学与工程学院。该论文已发表在IEEE Transactions on Affective Computing期刊,预计于2025年正式出版。

研究流程与细节

1. 研究框架

本研究提出了一种基于互信息的解耦多模态表示学习框架(Mutual Information-based Disentangled Multimodal Representation Learning, MIMRL),将多模态处理分为两个阶段:特征提取和融合。

特征提取阶段

在特征提取阶段,研究团队提出多模态特征包含三种有用信息:
1. 模态不变信息(Modality-Invariant Information):在不同模态之间共享,指向共同的语义。
2. 模态特定信息(Modality-Specific Information):每个模态独有的信息,但仍与最终预测相关。
3. 模态互补信息(Modality-Complementary Information):当两个或多个模态联合时产生的预测信息。

研究团队利用互信息(MI)和条件互信息(Conditional Mutual Information, CMI)来量化这些信息,并通过调整它们的比例来优化特征提取。

融合阶段

在融合阶段,研究团队通过最大化每个模态表示与融合表示之间的互信息来促进多模态融合。此外,还定量分析了每个模态在融合表示中的贡献。

2. 实验设置与数据集

研究团队在四个公开数据集上进行了实验,包括CMU-MOSICMU-MOSEIHazumi1911AVEC2019。这些数据集分别用于情感分析和抑郁检测任务。

CMU-MOSI和CMU-MOSEI

这两个数据集包含多模态(文本、声学和视觉)的情感分析数据,每个样本的标签为区间[-3, 3]的实数,表示情感的负向到正向强度。

Hazumi1911

该数据集引入了生理信号作为第四种模态,用于情感分析。

AVEC2019

该数据集用于抑郁检测任务,标签为区间[0, 24]的实数,表示抑郁程度。

3. 实验方法

模态表示生成与融合

在融合之前,研究团队使用LSTM(长短期记忆网络)生成声学和视觉模态的表示,使用BERT生成文本模态的表示。然后,通过融合编码器将多模态特征融合为统一的表示。

信息最大化

在特征提取阶段,研究团队利用MI和CMI估计模态不变、特定和互补信息,并通过损失函数调整它们的比例。在融合阶段,通过最大化每个模态与融合表示之间的互信息来优化融合效果。

4. 实验结果

研究团队在实验中发现,所提出的框架在多个数据集上均取得了最先进的性能。例如,在CMU-MOSI数据集上,MAE(平均绝对误差)为0.687,Pearson相关系数为0.792;在CMU-MOSEI数据集上,MAE为0.513,Pearson相关系数为0.801。此外,研究团队还发现,不同任务对模态信息的依赖程度不同。例如,在情感分析任务中,文本模态的特定信息占主导地位,而在抑郁检测任务中,模态互补信息更为重要。

结论与意义

本研究提出了一种基于互信息的解耦多模态表示学习框架,首次将多模态解耦方法与互信息方法相结合,解决了多模态表示学习中的关键问题。通过定量分析和优化模态不变、特定和互补信息的比例,研究团队在多模态情感分析和抑郁检测任务中取得了显著的性能提升。

研究亮点

  1. 创新性:首次将多模态解耦与互信息方法结合,提出了一种全新的多模态表示学习框架。
  2. 定量分析:通过互信息和条件互信息定量估计了模态信息的比例,为多模态融合提供了理论支持。
  3. 广泛适用性:在多个公开数据集上验证了框架的有效性,展示了其在不同任务中的通用性。

未来展望

尽管本研究取得了显著成果,但当前的信息比例调整仍依赖于手动调参,限制了其在实际应用中的扩展性。未来研究将集中于开发自适应方法,以自动调整信息比例,进一步推动多模态表示学习的发展。