基于频谱-时间调制特征的双流鲁棒语音情感识别
基于频谱-时间调制特征的双流鲁棒语音情感识别研究 学术背景 语音情感识别(Speech Emotion Recognition, SER)是通过分析人类语音中的情感内容来识别情绪的技术。它在人机交互、客户服务管理系统以及医疗等领域具有广泛的应用潜力。然而,尽管基于深度学习的SER模型在受控环境中表现出色,但在真实环境中的噪声条件下,其性能显著下降。噪声(如交通噪声、风扇噪声等)会严重干扰语音信号,导致情感识别系统的准确性大幅降低。因此,开发一种在噪声环境下依然鲁棒的SER系统成为了一个重要的研究方向。 传统的SER系统通常依赖于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)和梅尔频谱图等声学特征。然而,这些特征在噪声环境下容易受到干扰,...