基于多分辨率信号小波网络的语音情感识别研究

多分辨率信号小波网络在语音情感识别中的应用:SigWavNet

学术背景

语音情感识别(Speech Emotion Recognition, SER)在人机交互和心理学评估中扮演着重要角色。它通过分析语音信号来识别说话者的情感状态,广泛应用于紧急呼叫中心、健康护理和虚拟AI助手等领域。然而,尽管该领域取得了显著进展,系统复杂性、特征区分度不足以及噪声干扰等问题仍然存在。为了解决这些挑战,来自University of Québec、Concordia University和University of Québec at Montréal的研究团队提出了一种新的端到端深度学习框架——SigWavNet,直接从语音波形信号中提取有意义的特征,并通过多分辨率分析提升情感识别的准确性。

论文来源

本论文由Alaa NfissiWassim BouachirNizar BouguilaBrian Mishara共同撰写,分别来自University of Québec、Concordia University和University of Québec at Montréal。论文于2025年发表在IEEE Transactions on Affective Computing期刊上,题为“SigWavNet: Learning Multiresolution Signal Wavelet Network for Speech Emotion Recognition”。

研究流程

1. 研究动机与问题

现有的语音情感识别系统在处理复杂情感表达时存在局限性,尤其是在特征提取和噪声鲁棒性方面。传统方法通常依赖于固定长度的语音片段分割,无法充分捕捉情感信息的分布。此外,噪声干扰也严重影响了系统的实际应用性能。为了解决这些问题,SigWavNet提出了一种基于快速离散小波变换(Fast Discrete Wavelet Transform, FDWT)的端到端深度学习框架,结合一维扩张卷积神经网络(1D Dilated CNN)和双向门控循环单元(Bidirectional GRU)来捕捉语音信号的空间和时间特征。

2. 研究方法与流程

a) 快速离散小波变换(FDWT)

SigWavNet的核心是FDWT层,用于对原始语音信号进行多级分解。FDWT通过卷积层模拟低通和高通滤波器,逐级分解信号。每级分解生成近似系数(低通结果)和细节系数(高通结果),并通过共轭正交滤波器(Conjugate Quadrature Filter, CQF)保持正交性。FDWT的优势在于其能够在时间和频率域内同时进行局部化分析,这对于捕捉语音中的情感特征至关重要。

b) 可学习非对称硬阈值(Learnable Asymmetric Hard Thresholding, LAHT)

为了提高特征表示的稀疏性,SigWavNet引入了可学习非对称硬阈值函数。该函数通过两个反向的Sigmoid函数组合而成,能够动态调整阈值,从而有效去除噪声并保留情感相关的特征。

c) 一维扩张CNN与空间注意力机制

在FDWT提取的多级特征基础上,SigWavNet使用一维扩张CNN进一步捕捉局部依赖关系。扩张CNN通过扩大卷积核的感知野,能够处理长距离的时序信息。空间注意力机制则动态调整特征的权重,突出情感显著的区域。

d) 双向GRU与时间注意力机制

为了捕捉语音信号中的时序模式,SigWavNet引入了双向GRU网络。双向GRU能够同时处理前向和后向的时序信息,而时间注意力机制则识别出对情感识别贡献最大的关键区域。

e) 通道加权与全局平均池化

在特征提取的最后阶段,SigWavNet通过通道加权层动态调整不同频段的权重,并结合全局平均池化(Global Average Pooling, GAP)将特征图压缩为标量值,最终通过Log Softmax层输出情感分类概率。

3. 实验与结果

a) 数据集

研究使用了两个公开的语音情感识别数据集:IEMOCAPEmo-DB。IEMOCAP包含12小时的音频数据,涵盖多种情感类别;Emo-DB包含535条德语录音,模拟了七种情感状态。为了确保实验的公平性,研究采用10折交叉验证,并使用分层随机抽样划分训练集和测试集。

b) 实验结果

SigWavNet在IEMOCAP和Emo-DB数据集上均表现出色。在IEMOCAP上,模型的整体准确率为84.8%,F1得分为85.1%;在Emo-DB上,准确率达到90.1%,F1得分为90.3%。特别是在识别“中性”和“悲伤”情感时,SigWavNet表现尤为突出,准确率分别达到97%和95.4%。此外,模型的混淆矩阵显示,其在区分“愤怒”和“悲伤”等情感时也存在一定的挑战。

c) 与现有方法的对比

SigWavNet在IEMOCAP和Emo-DB数据集上的表现超越了多种现有的语音情感识别方法,包括基于MFCC特征提取和CNN分类的模型。其优势在于能够直接从原始语音信号中提取多分辨率特征,并结合空间和时间注意力机制捕捉情感信息。

4. 消融实验

为了验证SigWavNet各组件的作用,研究进行了消融实验。实验结果表明,可学习非对称硬阈值和层间独立学习的小波核显著提升了模型的性能。此外,双向GRU和时间注意力机制的引入也进一步增强了模型对时序信息的捕捉能力。

结论与意义

SigWavNet通过结合多分辨率分析、可学习阈值和注意力机制,显著提升了语音情感识别的准确性和鲁棒性。其端到端的深度学习框架不仅简化了特征提取过程,还能够在实际应用场景中有效应对噪声干扰。该研究为语音情感识别领域提供了新的思路,并在人机交互、心理健康评估等领域具有广泛的应用前景。

研究亮点

  1. 多分辨率分析:SigWavNet利用快速离散小波变换对语音信号进行多级分解,有效捕捉了情感特征的时间和频率信息。
  2. 可学习非对称硬阈值:通过动态调整阈值,模型能够更好地去除噪声并保留情感相关的特征。
  3. 空间和时间注意力机制:结合一维扩张CNN和双向GRU,SigWavNet能够同时捕捉语音信号的局部和全局特征。
  4. 端到端框架:SigWavNet直接从原始语音信号中提取特征,避免了传统方法中复杂的手工特征提取过程。

展望

未来的研究可以进一步探索SigWavNet在多语言、多方言环境下的适用性,并尝试将其应用于更复杂的实际场景,如实时语音情感识别和多模态情感分析。