鲁棒的序列深度伪造检测

鲁棒的序列深度伪造检测

学术背景

随着深度生成模型(如GANs)的快速发展,生成逼真的人脸图像已经变得非常容易。然而,这种技术的滥用也引发了严重的安全问题,尤其是深度伪造(Deepfake)技术的滥用。深度伪造技术可以生成与真实图像几乎无法区分的伪造图像,这些图像可能被用于传播虚假信息、制造假新闻等恶意用途。为了应对这一问题,研究者们提出了多种深度伪造检测方法。然而,现有的方法主要集中在检测单步的人脸篡改操作,而随着易于使用的面部编辑应用程序的普及,人们可以通过多步操作对人脸进行序列化的篡改。这种新的威胁要求我们能够检测出一系列的面部篡改操作,这对于检测深度伪造媒体以及后续恢复原始人脸图像至关重要。

基于这一观察,本文提出了一个新的研究问题——序列深度伪造检测(Sequential Deepfake Detection, Seq-Deepfake)。与现有的深度伪造检测任务仅要求预测二分类标签(真实/伪造)不同,序列深度伪造检测要求正确预测一系列面部篡改操作的序列向量。为了支持大规模的研究,本文构建了第一个序列深度伪造数据集,其中包含通过多步操作篡改的人脸图像及其对应的序列化篡改操作标注。

论文来源

本文由Rui ShaoTianxing WuZiwei Liu共同撰写,分别来自哈尔滨工业大学(深圳)新加坡南洋理工大学。论文于2024年12月1日被Springer Nature旗下的International Journal of Computer Vision期刊接受,并于2025年正式发表。

研究流程与实验设计

1. 序列深度伪造数据集的构建

为了支持序列深度伪造检测的研究,本文构建了一个大规模的序列深度伪造数据集(Seq-Deepfake Dataset)。该数据集基于两种代表性的人脸篡改技术:面部组件篡改(Facial Components Manipulation)面部属性篡改(Facial Attributes Manipulation)。与现有的深度伪造数据集仅提供二分类标签不同,本文提出的数据集包含了不同长度的篡改序列标注。

  • 面部组件篡改:使用StyleMapGAN模型,通过将参考图像的面部组件(如眼睛、鼻子等)移植到原始图像上,生成篡改后的图像。每个篡改步骤都对应一个特定的面部组件操作。

  • 面部属性篡改:使用Fine-grained Facial Editing方法,通过逐步修改面部属性(如年龄、微笑程度等)生成篡改后的图像。每个篡改步骤对应一个特定的面部属性操作。

最终,数据集包含超过85,000张篡改后的人脸图像,涵盖了从1步到5步的不同长度的篡改序列。

2. 序列深度伪造检测模型的设计

本文提出了一种基于Transformer的序列深度伪造检测模型——SeqFakeFormer。该模型将序列深度伪造检测任务视为一种图像到序列(Image-to-Sequence)的任务,类似于图像描述生成(Image Captioning)。SeqFakeFormer的核心思想是通过提取图像中的空间关系特征,并建模这些特征的序列关系来检测篡改序列。

  • 空间关系提取:首先,使用卷积神经网络(CNN)提取输入图像的特征图,然后通过自注意力机制(Self-Attention)提取这些特征图的空间关系,捕捉篡改操作的空间痕迹。

  • 序列关系建模:通过交叉注意力机制(Cross-Attention),将提取的空间关系特征与篡改序列的标注进行对齐,建模篡改操作的序列关系。为了增强交叉注意力的效果,本文还设计了一个空间增强的交叉注意力模块(Spatially Enhanced Cross-Attention, SECA),通过学习空间权重图来丰富序列信息。

3. 序列深度伪造检测的鲁棒性提升

为了模拟现实世界中的深度伪造数据分布,本文进一步对原始序列深度伪造数据集施加了多种扰动(如颜色失真、噪声、压缩等),构建了一个更具挑战性的数据集——Seq-Deepfake-P。为了应对这一更具挑战性的场景,本文提出了一个增强版的模型——SeqFakeFormer++。该模型通过引入图像-序列对比学习(Image-Sequence Contrastive Learning, ISC)图像-序列匹配(Image-Sequence Matching, ISM)模块,进一步增强了图像与序列之间的跨模态推理能力,从而在扰动下实现更鲁棒的序列深度伪造检测。

主要结果

1. 序列深度伪造检测的性能

在Seq-Deepfake数据集上,SeqFakeFormer和SeqFakeFormer++在检测面部组件篡改和面部属性篡改方面均表现出色。与现有的多标签分类方法相比,SeqFakeFormer在固定准确率(Fixed-Acc)和自适应准确率(Adaptive-Acc)上均取得了显著的提升。特别是在自适应准确率上,SeqFakeFormer的表现优于其他基线方法,表明其在检测不同长度的篡改序列方面具有更强的能力。

2. 鲁棒性测试

在Seq-Deepfake-P数据集上,SeqFakeFormer++在面对各种扰动时表现出更强的鲁棒性。与SeqFakeFormer相比,SeqFakeFormer++在固定准确率和自适应准确率上均有所提升,尤其是在面部组件篡改任务中,SeqFakeFormer++的性能提升更为显著。

3. 失败案例分析

尽管SeqFakeFormer和SeqFakeFormer++在大多数情况下表现良好,但在某些极端情况下仍会出现失败。例如,模型可能会错误预测篡改类型、篡改顺序或篡改长度。这些失败案例表明,序列深度伪造检测任务仍然具有很大的挑战性,尤其是在面对超逼真的人脸图像和细微的篡改痕迹时。

结论与意义

本文提出了一个新的研究问题——序列深度伪造检测,并构建了第一个大规模的序列深度伪造数据集。通过将序列深度伪造检测任务视为图像到序列的任务,本文提出了SeqFakeFormer模型,并通过引入空间增强的交叉注意力模块和跨模态推理模块,进一步提升了模型的鲁棒性。实验结果表明,SeqFakeFormer和SeqFakeFormer++在检测序列深度伪造方面具有显著的优势,尤其是在面对现实世界中的扰动时表现出更强的鲁棒性。

本文的研究不仅扩展了深度伪造检测的研究范围,还为未来的研究提供了新的方向。通过检测序列化的篡改操作,本文还为恢复原始人脸图像提供了可能,进一步增强了深度伪造检测的应用价值。

研究亮点

  1. 新颖的研究问题:本文首次提出了序列深度伪造检测问题,扩展了深度伪造检测的研究范围。
  2. 大规模数据集:构建了第一个包含多步篡改操作的序列深度伪造数据集,并提供了详细的篡改序列标注。
  3. 创新的模型设计:提出了SeqFakeFormer和SeqFakeFormer++模型,通过空间增强的交叉注意力和跨模态推理模块,显著提升了序列深度伪造检测的性能和鲁棒性。
  4. 广泛的应用前景:通过检测序列化的篡改操作,本文还为恢复原始人脸图像提供了可能,具有广泛的应用前景。

未来研究方向

尽管本文在序列深度伪造检测方面取得了显著的进展,但仍有许多问题值得进一步研究。例如,如何进一步提高模型在面对极端篡改情况下的鲁棒性,如何将序列深度伪造检测应用于更广泛的多模态媒体篡改检测任务等。未来的研究可以在此基础上进一步探索,以应对日益复杂的深度伪造技术带来的挑战。