利用通用代理模型进行样本选择来应对标签噪声

学术背景与问题提出

随着深度神经网络(Deep Neural Networks, DNNs)的快速发展,视觉智能系统在图像分类、目标检测、视频理解等任务中取得了显著进展。然而,这些突破依赖于高质量标注数据的收集,而标注过程通常耗时且昂贵。为了应对这一问题,研究人员开始利用大规模的网络数据进行训练,但这些数据往往带有噪声标签(label noise),这会影响深度神经网络的性能。噪声标签的存在会导致训练数据和测试数据分布不一致,从而影响模型在干净测试数据上的泛化能力。

为了解决这一问题,样本选择(sample selection)成为一种有效的方法。其核心思想是通过某种标准从所有训练样本中分离出干净的样本。以往的方法主要依赖于“小损失准则”(small loss criterion),即认为损失较小的样本是干净的。然而,这种策略依赖于每个数据实例的学习动态,某些噪声样本由于频繁出现的错误学习模式仍然会被模型记住。因此,研究人员提出了一种无需训练的替代模型(surrogate model),以避免记忆效应的影响。

论文来源与作者信息

本文由Chao Liang、Linchao Zhu、Humphrey Shi和Yi Yang共同撰写,分别来自浙江大学Reler实验室、Shi Labs @ UIUC & Oregon以及Picsart AI Research (PAIR)。论文于2024年12月1日被《International Journal of Computer Vision》接受发表。

研究内容与方法

研究流程

本文提出了一种基于视觉-语言替代模型CLIP(Contrastive Language–Image Pretraining)的样本选择方法,用于自动过滤噪声样本。CLIP通过文本-图像对齐的能力,能够为每个样本分配一个置信度得分,从而帮助识别干净的样本。此外,本文还设计了一种自适应边缘损失(margin adaptive loss),以减轻CLIP引入的选择偏差,增强模型对噪声标签的鲁棒性。

1. 样本选择

首先,研究人员利用预训练的CLIP模型对每个样本进行评分。给定一个图像x,CLIP通过图像编码器和文本编码器分别提取图像特征v和文本特征{t1, …, tc}。CLIP的预测公式如下:

[ q(y = i |x) = \frac{\exp(\cos(v, ti)/\tau)}{\sum{j=1}^c \exp(\cos(v, t_j)/\tau)} ]

其中,cos(·, ·)表示余弦相似度,τ为温度因子。研究人员提出了两种选择标准:

  • 预测置信度:将CLIP对噪声标签的预测置信度作为样本的置信度,选择置信度高于某个阈值ρ的样本作为干净样本。
  • 提示一致性:通过注入领域知识,设计不同的提示模板,计算两个提示模板下的预测差异,选择差异较小的样本作为干净样本。

2. 自适应边缘损失

尽管CLIP能够帮助选择干净样本,但它也可能引入选择偏差。为了解决这一问题,研究人员设计了一种噪声感知的平衡边缘自适应损失(noise-aware balanced margin adaptive loss)。该损失通过引入转移矩阵(transition matrix)和类别频率先验(class frequency prior),调整模型的输出概率,从而抑制对某些类别的过度自信,并缓解样本选择带来的类别不平衡问题。

实验结果

本文在多个真实世界和合成噪声数据集上验证了所提出方法的有效性。实验结果表明,本文方法在WebVision、Clothing1M、CIFAR-10N、CIFAR-100N等数据集上均取得了显著的性能提升。特别是在高噪声率(如90%)的情况下,本文方法仍能有效识别干净样本,显著优于现有的基线方法。

1. 真实世界数据集

在WebVision数据集上,本文方法的Top-1和Top-5准确率分别达到了79.08%和91.96%,显著优于Dividemix基线方法。在Clothing1M数据集上,本文方法也表现出色,验证了其在处理真实世界噪声标签时的有效性。

2. 合成数据集

在CIFAR-10和CIFAR-100数据集上,本文方法在不同噪声率和噪声类型下均表现出色。特别是在高噪声率(90%)的情况下,本文方法的Top-1准确率分别达到了89.2%和45.7%,显著优于现有的基线方法。

结论与意义

本文提出了一种基于CLIP的样本选择方法,能够有效识别被深度神经网络记住的噪声样本。通过引入自适应边缘损失,本文方法进一步减轻了CLIP引入的选择偏差,增强了模型对噪声标签的鲁棒性。实验结果表明,本文方法在多个噪声数据集上均取得了显著的性能提升,展示了其在处理噪声标签问题上的潜力。

研究亮点

  1. 创新性:本文首次利用现成的视觉-语言替代模型CLIP进行样本选择,避免了传统小损失准则带来的学习偏差。
  2. 鲁棒性:通过设计自适应边缘损失,本文方法能够有效减轻CLIP引入的选择偏差,增强模型对噪声标签的鲁棒性。
  3. 广泛适用性:本文方法在多个真实世界和合成噪声数据集上均表现出色,展示了其在不同任务中的广泛适用性。

总结

本文通过引入CLIP模型和自适应边缘损失,提出了一种新颖的样本选择方法,能够有效处理噪声标签问题。该方法不仅在多个数据集上取得了显著的性能提升,还为未来的噪声标签研究提供了新的思路。