本文介绍了一项关于图像异常检测的研究,题为《Contextual Affinity Distillation for Image Anomaly Detection》,由Jie Zhang、Masanori Suganuma和Takayuki Okatani共同完成,分别来自日本东北大学信息科学研究科和RIKEN AIP中心。该研究发表于2024年的IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)会议上。
异常检测(Anomaly Detection, AD)是计算机视觉领域的一个重要任务,旨在识别图像中的异常区域并定位这些异常。该任务在工业产品检测等领域具有广泛的应用。然而,由于异常样本在制造过程中出现的频率极低且异常类型难以预测,大多数研究集中在无监督的异常检测方法上,即仅使用正常样本进行训练。
现有的无监督异常检测方法主要关注“结构性”异常(如裂纹、颜色污染等),通过匹配或学习局部特征表示来实现高检测性能。然而,这些方法在处理“逻辑性”异常时表现不佳。逻辑性异常通常涉及长距离依赖关系的违反,例如正常物体被放置在错误的位置。为了应对这一挑战,本文提出了一种基于双学生模型的知识蒸馏框架(Dual-Student Knowledge Distillation, DSKD),通过引入全局上下文信息来增强对逻辑性异常的检测能力。
本文提出的方法基于反向蒸馏(Reverse Distillation)框架,通过两个学生模型(局部学生和全局学生)来分别模仿教师模型的局部和全局行为。局部学生专注于精确的局部特征学习,而全局学生则通过学习全局相关性来捕捉长距离依赖关系。为了进一步增强全局学生的学习能力,本文设计了一个全局上下文压缩模块(Global Context Condensing Block, GCCB),并提出了上下文亲和力损失(Contextual Affinity Loss)用于学生模型的训练和异常评分。
具体流程如下: 1. 教师模型:使用在ImageNet上预训练的深度神经网络作为教师模型,提取多层次的代表性特征。 2. 局部学生:通过反向蒸馏方法,局部学生从教师模型的特征中重建低层次特征,主要用于检测结构性异常。 3. 全局学生:全局学生通过GCCB模块压缩教师模型的高层次特征,并利用上下文亲和力损失来学习全局上下文信息,从而提升对逻辑性异常的检测能力。 4. 异常评分:在推理阶段,通过比较学生模型和教师模型的特征差异来计算异常评分,最终结合局部和全局学生的评分结果进行异常检测和定位。
本文在多个公开的无监督异常检测数据集上进行了实验,结果表明该方法在MVTec LOCO AD数据集上达到了新的最优性能。具体来说,本文的方法在结构性异常和逻辑性异常的检测上都表现优异,尤其是在逻辑性异常的检测上显著优于现有方法。例如,在MVTec LOCO AD数据集的五个类别中,本文方法的平均异常定位得分为0.73,显著高于其他方法。
本文提出的双学生知识蒸馏框架和上下文亲和力损失为图像异常检测提供了新的思路。通过引入全局上下文信息,该方法不仅能够有效检测结构性异常,还能够显著提升对逻辑性异常的检测能力。这一研究为工业产品检测等实际应用提供了更强大的工具,具有重要的科学和应用价值。
本文还通过消融实验验证了双学生架构和上下文亲和力损失的有效性,并探讨了不同超参数对模型性能的影响。实验结果表明,本文的方法在多个数据集上均表现出色,尤其是在逻辑性异常的检测上具有显著优势。
总的来说,本文的研究为图像异常检测领域提供了新的技术路径,具有重要的理论和实践意义。