一种简单高效的面部表情识别网络CSE-GResNet
基于Gabor卷积的高效表情识别网络:CSE-GResNet
学术背景
面部表情识别(Facial Expression Recognition, FER)是计算机视觉领域的一个重要研究方向,广泛应用于社交机器人、医疗保健、社会心理学、客户服务以及心理分析等多个领域。面部表情是人类情感状态和意图的自然、普遍信号,因此,准确识别面部表情对于理解人类情感具有重要意义。然而,现有的FER方法大多关注模型性能的提升,而忽视了计算资源的消耗。在资源受限的平台上,如何在保持高效的同时实现较高的识别性能仍是一个巨大的挑战。
为了解决这一问题,本文提出了一种轻量级且高效的通道移位增强Gabor-ResNet(CSE-GResNet)网络,旨在通过Gabor卷积(Gconv)增强面部图像的关键视觉特征,同时通过创新的通道移位模块(CS-Module)和通道增强模块(CE-Module)进一步提升模型的表达能力。
论文来源
本文由来自华南理工大学的Jiang Shaoping、Xing Xiaofen、Xu Xiangmin、Wang Lin、Guo Kailing,以及广东金融学院的Liu Fang共同撰写。论文发表于2023年10月的IEEE Transactions on Affective Computing期刊上,是该期刊第18卷的第9期。
研究流程
1. 研究问题与目标
本文的研究目标是设计一种高效且轻量级的FER模型,能够在减少计算资源和内存消耗的同时,保持较高的识别性能。为此,作者提出了CSE-GResNet,结合了Gabor卷积、通道移位模块和通道增强模块,以捕捉面部图像中的关键特征。
2. 网络结构设计
CSE-GResNet的核心是基于ResNet的改进版本GResNet,其中传统的卷积操作被Gabor卷积(Gconv)替代。Gabor卷积通过将Gabor滤波器嵌入到卷积核中,增强了模型对尺度变化和旋转的鲁棒性,同时减少了参数数量。具体而言,Gabor卷积的每个输出通道包含多个不同方向的Gabor滤波器特征,从而捕捉到更多的细节信息。
为了进一步提升模型的表达能力,作者提出了通道移位模块(CS-Module)和通道增强模块(CE-Module): - CS-Module:通过在空间维度上对部分通道进行移位,促进相邻通道之间的信息交换。该模块的参数是固定的,因此在反向传播过程中计算效率极高。 - CE-Module:通过在局部区域内进行通道卷积,聚合相邻通道的互补特征,进一步增强模型的表达能力。该模块的参数较少,计算成本低,能够有效提升模型的性能。
3. 实验设计与数据集
作者在三个公开的FER数据集上进行了广泛的实验,分别是RAF-DB、FER2013和SFEW。这些数据集均包含自然场景下的面部表情图像,具有较大的挑战性,如不同的头部姿态、光照变化和遮挡等。
- RAF-DB:包含12,271张训练图像和3,068张测试图像,标注为六种基本表情和中性表情。
- FER2013:包含35,887张灰度图像,分为训练集、验证集和测试集。
- SFEW:从AFEW5.0数据集中提取的关键帧,包含958张训练图像、436张验证图像和372张测试图像。
4. 训练策略与数据增强
为了增强模型对姿态变化的鲁棒性,作者采用了多种数据增强技术,包括随机裁剪、水平翻转和随机旋转。此外,模型在AffectNet数据集上进行了预训练,并在RAF-DB、FER2013和SFEW数据集上进行了微调。训练过程中使用了SGD优化器,学习率设置为0.005,并在30个epoch后按指数衰减。
主要结果
1. GResNet的有效性
实验结果表明,基于Gabor卷积的GResNet在三个数据集上均表现优异。与传统的ResNet相比,GResNet在保持较低参数数量的同时,显著提升了识别精度。例如,在RAF-DB数据集上,GResNet18的识别精度达到了85.59%,而ResNet18的精度为85.33%。
2. CS-Module与CE-Module的有效性
通道移位模块和通道增强模块的引入进一步提升了模型的性能。在RAF-DB数据集上,CSE-GResNet的识别精度达到了89.02%,显著优于现有的最先进方法。此外,CS-Module和CE-Module的计算成本和内存消耗极低,使得模型在资源受限的平台上也能高效运行。
3. 与其他方法的对比
与现有的高效FER方法相比,CSE-GResNet在识别精度和计算效率上均表现出显著优势。例如,在FER2013数据集上,CSE-GResNet的识别精度为74.15%,而现有的高效模型如EfficientFace的精度为73.59%,且CSE-GResNet的参数数量仅为2.80M,远低于其他模型。
结论与意义
本文提出的CSE-GResNet通过结合Gabor卷积、通道移位模块和通道增强模块,显著提升了FER模型的性能,同时保持了较高的计算效率。实验结果表明,CSE-GResNet在多个公开数据集上均取得了优异的识别精度,且模型的计算成本和内存消耗极低,适用于资源受限的应用场景。
研究亮点
- 高效性与轻量化:CSE-GResNet在保持高效的同时,显著减少了模型的参数数量和计算成本。
- 创新模块设计:通过引入通道移位模块和通道增强模块,进一步提升了模型的表达能力。
- 广泛实验验证:在多个公开数据集上进行了广泛的实验验证,证明了模型的优越性和鲁棒性。
其他有价值的信息
本文还详细讨论了Gabor卷积中方向参数(u)和尺度参数(v)的选择对模型性能的影响,并通过实验验证了最优的参数设置。此外,作者还探讨了通道移位模块和通道增强模块的融合方式,提出了三种不同的融合策略,并通过实验验证了其有效性。
总结
CSE-GResNet的提出为高效面部表情识别提供了一种新的解决方案,不仅在学术上具有重要的理论价值,在实际应用中也具有广泛的应用前景。未来的研究可以进一步探索该模型在其他计算机视觉任务中的适用性,如人脸识别和情感分析等。