通过替代双教师自调教学实现弱监督语义图像分割
通过替代双教师自调教学实现弱监督语义图像分割
背景介绍
随着计算机视觉领域的不断发展,语义分割成为了其中一个重要而活跃的研究方向。传统的语义分割方法依赖手工标记的像素级标签,然而获取这些精确标注通常需要大量的人力和时间成本。为了解决这一问题,近年来提出了弱监督语义分割(Weakly Supervised Semantic Segmentation,WSSS),其目标是在最小化人工标注的前提下,利用弱标注信息(如图像标签、边框、涂鸦等)实现高效的语义分割。
本文研究的是基于图像级标签的弱监督语义分割方法,这是所有 WSSS 类别中最具挑战性的任务。当前方法主要依赖于图像分类模型生成伪分割掩膜(Pseudo Segmentation Masks,PSMs),但这些模型特征主要用于分类任务,导致伪掩膜在对象区域有不均匀响应,且边界细节不足。为此,本文提出了基于双教师单学生网络架构的交替自调教学(Alternate Self-Dual Teaching,ASDT)学习框架,以生成高质量的 PSMS。
论文来源
这篇论文《Weakly Supervised Semantic Segmentation via Alternate Self-Dual Teaching》由 Dingwen Zhang、Hao Li、Wenyuan Zeng、Chaowei Fang、Lechao Cheng、Ming-Ming Cheng 和 Junwei Han 撰写,发表于 2021 年 8 月的 IEEE Transactions on Image Processing 期刊。这篇论文得到了广东省重点研发项目、国家自然科学基金的资助支持。
研究流程
研究流程概述
研究流程由以下几个阶段构成:
- 特征提取:首先使用主干网络提取图像的特征。
- 双教师学习:利用分类教师网和分割教师网分别生成局部判别对象部分特征及完整对象区域特征。
- 交替蒸馏学习:将双教师模型生成的知识通过交替蒸馏算法传递给学生网络,指导生成伪分割掩膜。
- 后处理:采用条件随机场(CRF)进行后处理以提升分割结果的质量。
特征提取
从特征提取开始,使用全卷积网络(如 ResNet)对输入图像进行特征提取。得到的特征图将用于后续的双教师学习过程。
双教师学习
分类教师网(Class-Teacher Branch):该部分负责生成判别对象部分特征(Discriminative Object Part)。通过全局平均池化(Global Average Pooling,GAP)和全连接层生成图像级预测,然后结合特征图与预测权重生成类激活图(Class Activation Maps,CAMs),进而生成用于后续蒸馏的信任语义定位(Trustful Semantic Localization)。
- 损失函数:交叉熵损失(Cross-Entropy Loss,Lce)。
分割教师网(Seg-Teacher Branch):该部分负责生成完整对象区域特征(Full Object Region),通过膨胀卷积层与softmax操作构建输出。这一网络通过自生成的判别对象部分特征进行指引。
- 损失函数:基于能源的损失函数(Energy-Based Loss)。
交替自调教学
在该阶段,研究提出了一种交替蒸馏机制,将双教师模型生成的知识交替传递给学生网络。具体而言,采用脉宽调制(Pulse Width Modulation,PWM)信号控制从哪一个教师模型进行知识蒸馏,从而避免学生模型陷入局部最优解。交替蒸馏损失(Lad)包括分类教师到学生的蒸馏损失与分割教师到学生的蒸馏损失。
通过交替蒸馏机制,学生网络能够更加稳定地获取可靠的伪分割掩膜,减轻教师模型误差对学生模型学习过程的影响。
实验及结果
研究在 PASCAL VOC 2012 和 COCO-Stuff 10k 数据集上验证了 ASDT 框架的有效性,实验结果表明,ASDT 框架可以取得当前最好的分割性能。
- PASCAL VOC 2012:在验证集和测试集上均获得了显著的性能提升,分别达到了 68.5% 和 68.4% 的 mIoU(Mean Intersection over Union)。
- COCO-Stuff 10k:ASDT 框架在该数据集上也表现出色,比现有最先进的方法提高了 0.6% 的 mIoU。
消融实验
消融实验分析了不同自蒸馏策略的效果,验证了交替蒸馏机制的优势。具体情况见下表:
蒸馏策略 | Seg-Teacher | Student | PSM |
---|---|---|---|
单教师(分类教师) | - | 62.6 | - |
单教师(分割教师) | 62.3 | 30.4 | 48.5 |
直接组合(取最大值) | 61.4 | 40.1 | 53.2 |
直接组合(取平均值) | 62.3 | 40.0 | 53.6 |
交替双教师 | 63.8 | 63.8 | 64.0 |
从结果可见,交替蒸馏机制在训练学生网络分支上显著优于直接组合教师网络的方法。
结论和应用价值
本文提出的 ASDT 框架通过引入完整对象区域特征,结合判别对象部分特征,形成了一种新颖的双教师单学生架构。研究通过交替蒸馏机制实现了在弱监督语义分割下有效的知识蒸馏,显著提升了模型性能。该方法在 PASCAL VOC 和 COCO-Stuff 数据集上表现优异,展示了其广泛的应用前景。 未来,研究团队计划将 ASDT 机制拓展应用到更广泛的弱监督学习任务,如弱监督目标检测和实例分割等。
本文的贡献包括: 1. 重新审视了生成高质量伪分割掩膜的关键因素,揭示了判别对象部分和完整对象区域在弱监督语义分割中的重要性。 2. 提出了一种新颖的交替蒸馏机制,在弱监督下通过交替蒸馏两种知识,使学生模型规避教师模型误差带来的局部最优解。 3. 实验结果表明,所提方法在 PASCAL VOC 2012 和 COCO-Stuff 10k 数据集都实现了当前最优的分割性能。