深度伪造检测:双级适配器用于深度伪造检测
Deepfake-Adapter——一种双层适配器用于深度伪造检测
研究背景与问题
随着深度生成模型(deep generative models)的快速发展,超逼真的面部图像和视频可以轻松生成,这些内容甚至能够欺骗人类的眼睛。这种技术被滥用时,可能导致政治、娱乐和社会领域的严重虚假信息传播问题,这种威胁被称为“深度伪造”(Deepfake)。为了应对这一安全问题,许多深度伪造检测方法被提出,并在训练和测试数据来自相同操纵类型且质量良好的情况下表现出色。然而,当面对未见过或低质量的伪造样本时,这些方法的性能显著下降。这主要是因为现有的深度伪造检测方法大多仅关注局部纹理、融合边界或频率信息等低层次伪造特征,而忽略了高层次语义信息的作用。
高层次语义信息(high-level semantics)在深度伪造检测中具有重要作用。例如,某些面部操纵方法会改变真实人脸的风格和形状等通用高层次语义特征,这些特征对低层次特征的变化具有鲁棒性,因此可以作为检测伪造的重要线索。此外,近年来大规模预训练视觉Transformer(Vision Transformers, ViTs)在计算机视觉任务中展现出卓越的泛化能力,其丰富的语义表示为深度伪造检测提供了新的可能性。
基于此背景,本文作者提出了一种全新的参数高效调优方法——Deepfake-Adapter,旨在通过结合大规模预训练ViTs的高层次语义信息与低层次伪造特征,实现更泛化的深度伪造检测。
论文来源
这篇论文题为《Deepfake-Adapter: Dual-Level Adapter for Deepfake Detection》,由Rui Shao、Tianxing Wu、Liqiang Nie和Ziwei Liu共同撰写。作者分别来自哈尔滨工业大学(深圳)计算机科学与技术学院以及新加坡南洋理工大学S-Lab实验室。该论文于2024年9月30日被接收,并发表在国际顶级期刊《International Journal of Computer Vision》(IJCV)上,DOI为10.1007/s11263-024-02274-6。
研究详情
a) 研究工作流程
1. 方法概述
本文提出的Deepfake-Adapter是一种双层适配器架构,包括全局感知瓶颈适配器(Globally-Aware Bottleneck Adapter, GBA)和局部感知空间适配器(Locally-Aware Spatial Adapter, LSA)。该方法的核心思想是利用大规模预训练ViTs的高层次语义信息,并通过GBA和LSA模块分别提取全局和局部低层次伪造特征,从而实现对深度伪造的高效检测。
2. 具体流程
研究分为以下几个步骤:
(1)预训练ViT的冻结与适配
- 对象与规模:研究使用了预训练的ViT-Base模型(85.8M参数),并将其主干网络冻结。
- 处理方式:在ViT的每个多头自注意力(MHSA)层后插入GBA模块,在每个阶段插入一个LSA模块。
- 实验设计:将ViT划分为3个阶段,每个阶段包含4个块(blocks),并在每个阶段引入适配器模块。
(2)GBA模块的设计与功能
- 对象与规模:GBA模块被插入到ViT的12个MLP层中,共计12个GBA。
- 处理方式:GBA采用瓶颈结构,包含一个降维线性层(down-projection)、ReLU激活函数和一个升维线性层(up-projection),并通过可学习的缩放函数(scale function)调整全局低层次特征的重要性。
- 实验设计:GBA模块主要捕获全局低层次伪造特征,例如融合边界。
(3)LSA模块的设计与功能
- 对象与规模:LSA模块包含头部部分(LSA-H)和交互部分(LSA-I),共计3个LSA。
- 处理方式:
- 头部部分(LSA-H):采用卷积操作提取输入图像的局部低层次伪造特征,并将其投影到统一维度。
- 交互部分(LSA-I):通过多头交叉注意力(Multi-Head Cross-Attention, MHCA)机制,使LSA特征与ViT特征进行交互。
- 实验设计:LSA模块主要捕获局部低层次伪造特征,例如局部纹理。
(4)训练与测试
- 对象与规模:研究在多个公开数据集上进行实验,包括FaceForensics++(FF++)、Celeb-DF、Deepfake Detection Challenge(DFDC)和DeeperForensics-1.0。
- 处理方式:模型在FF++数据集上进行训练,并在其他数据集上进行跨数据集测试。
- 实验设计:采用交叉熵损失函数进行端到端训练,并使用SGD优化器。
3. 新颖方法与算法
- GBA与LSA模块:这两个模块的设计是本文的核心创新点,分别用于提取全局和局部低层次伪造特征。
- 双层适配器架构:通过有机整合高层次语义信息与低层次伪造特征,实现了更泛化的伪造表示。
b) 主要研究结果
1. 数据集内评估
- 实验设置:在FF++数据集的C23(高质量)和C40(低质量)版本上进行测试。
- 结果:
- 在C23版本中,Deepfake-Adapter在大多数伪造类型上达到了接近饱和的性能(>99% AUC)。
- 在C40版本中,Deepfake-Adapter在Deepfakes(DF)、FaceSwap(FS)和Face2Face(F2F)伪造类型上分别取得了1%-2%的AUC提升。
- 分析:这些结果表明,Deepfake-Adapter不仅在高质量伪造检测中表现优异,还能在低质量伪造检测中保持鲁棒性。
2. 跨操纵评估
- 实验设置:在FF++数据集的不同伪造类型之间进行跨操纵测试。
- 结果:
- Deepfake-Adapter在跨操纵评估中平均提升了5%-6%的AUC。
- 在Face2Face(F2F)伪造类型的跨操纵测试中,Deepfake-Adapter取得了最佳平均泛化性能。
- 分析:这些结果验证了Deepfake-Adapter在未见过伪造类型上的泛化能力。
3. 跨数据集评估
- 实验设置:在FF++数据集上训练模型,并在Celeb-DF和DFDC数据集上进行测试。
- 结果:
- Deepfake-Adapter在Celeb-DF和DFDC数据集上分别达到了71.74%和72.66%的AUC,比现有最佳方法Recce高出约3%。
- 分析:这些结果表明,Deepfake-Adapter在不同数据集之间的泛化能力显著优于现有方法。
4. 对抗低层次扰动的鲁棒性
- 实验设置:在7种未见过的低层次扰动(如饱和度、对比度、噪声等)下进行测试。
- 结果:
- Deepfake-Adapter在大多数扰动条件下取得了最佳或次佳性能。
- 分析:这些结果进一步证明了Deepfake-Adapter对未见过低层次扰动的鲁棒性。
c) 研究结论与价值
结论
本文提出了一种全新的参数高效调优方法——Deepfake-Adapter,通过结合大规模预训练ViTs的高层次语义信息与低层次伪造特征,实现了更泛化的深度伪造检测。
科学价值
- 理论贡献:首次将适配器技术引入深度伪造检测领域,为未来研究提供了新思路。
- 方法创新:提出了双层适配器架构,有效整合了全局和局部伪造特征。
应用价值
- 实际应用:Deepfake-Adapter在跨数据集和跨操纵评估中表现出色,适用于现实场景中的深度伪造检测。
- 社会意义:有助于打击深度伪造技术的滥用,保护公众免受虚假信息的影响。
d) 研究亮点
- 重要发现:高层次语义信息对深度伪造检测具有重要作用。
- 问题解决:解决了现有方法在未见过或低质量伪造样本上的泛化能力不足问题。
- 方法创新:提出了新颖的双层适配器架构,实现了参数高效的调优。
- 实验设计:在多个公开数据集上进行了全面的定量和定性实验,验证了方法的有效性。
e) 其他有价值的信息
本文还探讨了不同预训练权重、不同ViT架构以及不同适配器配置对模型性能的影响,进一步验证了Deepfake-Adapter的兼容性和鲁棒性。此外,作者通过Grad-CAM可视化展示了模型的决策机制,揭示了其在伪造区域上的关注点。
总结
《Deepfake-Adapter: Dual-Level Adapter for Deepfake Detection》是一篇具有重要科学价值和实际应用意义的研究论文。通过提出双层适配器架构,作者成功解决了深度伪造检测中的泛化能力问题,为未来研究开辟了新方向。