基于轻量点云网络的面部3D区域结构运动表示用于微表情识别

基于轻量级点云网络的3D区域结构运动表示在微表情识别中的应用

学术背景

微表情(Micro-expressions, MEs)是人类情感表达中的一种短暂且微妙的面部表情,通常持续1/25到1/5秒。由于其自发性、快速性和难以控制的特点,微表情往往能够揭示个体的真实情感,因此在人机交互(Human-Computer Interaction, HCI)、心理学、刑事分析、商务谈判等领域具有重要应用价值。然而,微表情的低强度和短暂性使其识别成为一项极具挑战性的任务。传统的微表情识别方法主要依赖于2D RGB图像中的运动特征提取,忽略了面部结构及其运动在情感传达中的关键作用。为了克服这一局限,本文提出了一种创新的3D面部运动表示方法,结合了3D面部结构、区域化的RGB和结构运动特征,旨在更准确地捕捉面部动态的细微变化。

论文来源

本文由Ren Zhang, Jianqin Yin, Chao Qi, Yonghao Dang, Zehao Wang, Zhicheng ZhangHuaping Liu共同撰写,作者来自北京邮电大学智能工程与自动化学院清华大学计算机科学与技术系。论文已被IEEE Transactions on Affective Computing接受,并将于2025年正式发表。

研究流程与实验方法

1. 面部3D时空运动表示

该研究首先从CAS(ME)3数据集中提取视频序列,包括深度图和对应的RGB图像。通过深度图生成3D点云,并结合RGB图像中的光学流(optical flow)信息,捕捉面部像素的时空动态变化。具体步骤如下: - 深度图到3D点云的转换:利用相机内参(如焦距和主点坐标)将深度图中的像素映射到3D空间,生成带有颜色信息的点云。 - 光学流与结构运动的结合:通过计算起始帧(onset frame)和顶点帧(apex frame)之间的光学流和深度变化,得到每个点在x、y、z三个方向上的运动信息。

2. 面部语义区域分割

为了更精确地捕捉面部不同区域的情感表达,研究将面部划分为八个语义区域,包括左右眉毛、脸颊、下颌、嘴巴和下巴。通过dlib算法检测的68个面部关键点,定义每个区域的边界,并从点云中提取每个区域的运动特征。

3. 轻量级点云图卷积网络(Lite-Point-GCN)

为了应对微表情样本数量有限的问题,研究提出了一种轻量级的点云图卷积网络(Lite-Point-GCN)。该网络通过以下两个阶段进行特征提取和建模: - 局部区域运动特征提取:使用轻量级PointNet++网络从每个语义区域中提取局部特征,结合空间和运动信息。 - 全局运动特征关系学习:通过图卷积网络(GCN)建模不同面部区域之间的相互作用,捕捉情感类别与运动特征之间的关联。

4. 实验与评估

研究在CAS(ME)3数据集上进行了广泛的实验,采用留一被试交叉验证(Leave-One-Subject-Out, LOSO)方法评估了所提出方法的有效性。实验结果表明,结合深度信息的3D面部运动表示方法在微表情识别任务中显著优于现有的最先进方法。

主要结果

  1. 3D运动表示的优越性:结合光学流和深度信息的3D面部运动表示方法能够更准确地捕捉面部动态变化,尤其是在光照变化和姿态变化的情况下表现出更强的鲁棒性。
  2. 语义区域分割的有效性:将面部划分为八个语义区域并提取每个区域的运动特征,显著提高了微表情识别的准确性和鲁棒性。
  3. Lite-Point-GCN的性能:轻量级点云图卷积网络在局部和全局特征建模方面表现出色,有效降低了过拟合风险,并在CAS(ME)3数据集上取得了优异的识别性能。

结论与意义

该研究提出了一种创新的3D面部运动表示方法,结合了深度信息和轻量级点云图卷积网络,显著提高了微表情识别的准确性和鲁棒性。该方法不仅在人机交互、心理学等领域具有重要的应用价值,还为未来的微表情识别研究提供了新的思路和方法。

研究亮点

  1. 创新的3D面部运动表示:首次将深度信息与光学流结合,提出了更全面的面部运动表示方法。
  2. 轻量级点云图卷积网络:设计的Lite-Point-GCN网络在样本有限的情况下表现出色,有效降低了过拟合风险。
  3. 语义区域分割:通过将面部划分为八个语义区域,精确捕捉了不同区域的情感表达。

其他有价值的信息

研究还探讨了全局模型的选择问题,比较了GCN和Transformer在微表情识别任务中的表现。实验结果表明,GCN在全局建模方面具有显著优势,能够更准确地捕捉面部区域之间的复杂关系。未来的研究将进一步探索如何在更大规模和多样化的数据集中验证该方法的有效性和泛化能力。