从目标到源:域自适应语义分割的新视角

关于领域自适应语义分割的新视角:T2S-DA研究

背景与研究意义

语义分割在计算机视觉领域中具有重要的应用,但其性能往往依赖于大量标注数据。然而,标注数据的获取成本极高,特别是在复杂场景中,为此,许多研究转向利用合成数据来缓解标注需求的问题。然而,由于领域间的差异性(domain gap),基于合成数据训练的模型难以泛化到真实场景中。这种情况下,无监督领域适应(Unsupervised Domain Adaptation, UDA)方法成为解决此问题的有效手段,其目标是从标注的源域(source domain)迁移知识到未标注的目标域(target domain)。

传统的UDA方法主要分为两类:对抗训练自训练。对抗训练通过分布对齐来缩小领域间的差异,而自训练则利用目标域的伪标签进行直接监督。然而,这些方法存在不足,例如目标伪标签通常较为噪声化,或者难以保证跨域特征在类别上的清晰分离。

本文的作者提出了一种新的解决思路:通过“拉近目标特征与源特征”的策略,利用源域数据构建类别判别性强的特征表示空间,从而间接提升目标域的特征表达能力。本文在此基础上提出了T2S-DA(Pulling Target to Source for Domain Adaptation),旨在为领域适应语义分割任务提供更通用且高效的解决方案。

研究来源

本文发表于International Journal of Computer Vision,由中国科学院自动化研究所、新加坡人工智能与机器人中心、中国香港科技创新学院以及SenseTime研究团队的学者共同完成。论文的初稿接收于2023年12月28日,最终版本于2024年10月22日被接受,作者包括Haochen Wang、Yujun Shen、Jingjing Fei等。

方法论与研究流程

研究框架与创新点

T2S-DA方法概述

T2S-DA的核心思路是通过源域数据为锚点,显式地将目标域特征向源域特征靠拢,而非直接对目标域进行监督。为实现这一目标,论文提出了以下几个关键技术模块:

  1. 伪目标图像生成:利用图像翻译引擎(如FDA, Fourier Domain Adaptation)将源域数据转换为目标域风格的伪目标图像,并保留其标注信息,确保跨域特征匹配的准确性。
  2. 动态重加权策略:针对语义分割数据中类别不平衡的问题,动态调整损失函数中的类别权重,重点优化表现较差的类别。
  3. 对比学习目标:通过计算源域和伪目标域之间的特征相似性,采用均方误差(MSE)或信息增益(InfoNCE)优化模型的特征学习。

动态再加权策略与类别不平衡问题

语义分割中的类别分布通常高度不平衡,例如“天空”与“道路”占据较大像素比例,而“杆子”或“标志”则较少。T2S-DA提出了一种基于类别置信度的动态权重调整策略,将更多的优化资源集中在表现较差的类别上,从而提升模型的总体泛化性能。

数据集与实验设计

本文在多个主流领域适应基准上验证了T2S-DA的有效性:

  • GTA5 → Cityscapes:从合成的城市场景迁移到真实城市场景。
  • SYNTHIA → Cityscapes:从合成的虚拟城市图像迁移到真实数据。

实验采用了两种网络结构进行对比:基于卷积网络的DeepLab-V2(ResNet-101作为编码器)以及基于Transformer的DAFormer(MIT-B5作为编码器)。

数据处理与训练细节

  • 图像预处理:对源域图像进行尺寸调整、随机裁剪,并应用Fourier域变换生成伪目标图像。
  • 优化器与训练参数:采用AdamW优化器,设置不同学习率和权重衰减策略,并利用线性学习率预热与动态更新策略提升模型性能。

实验结果与分析

在领域适应任务中的表现

在GTA5 → Cityscapes和SYNTHIA → Cityscapes两个基准上,T2S-DA显著超越了现有最先进方法,具体表现如下:

  • 在GTA5 → Cityscapes任务上,T2S-DA实现了75.1%的mIoU,比当前SOTA方法HRDA高出+1.3%。
  • 在SYNTHIA → Cityscapes任务上,T2S-DA在16类和13类设置下分别提升了+2.5%和+2.1%的mIoU。

进一步分析表明,T2S-DA在长尾类别(如“火车”和“标志”)上表现尤为突出,这是其动态重加权策略的直接收益。

在领域泛化任务中的表现

在领域泛化任务中(训练阶段完全无法访问目标域数据),T2S-DA同样展现出优异的性能,进一步验证了其领域不变性。相比其他方法(如ISW和SHADE),T2S-DA在Cityscapes数据集上的mIoU显著提高。

消融实验与特征可视化

  1. 对比学习方向:实验验证了“拉近目标到源域”的策略比“拉近源到目标域”更有效,这是由于源域特征具有更高的类别判别性。
  2. 特征分布分析:通过t-SNE可视化发现,T2S-DA能够在目标域中构建类别分离性更强的特征表示空间。
  3. 动态再加权与采样策略:研究表明,动态重加权和类平衡采样显著改善了模型对小众类别的表现。

研究意义与未来展望

本文提出的T2S-DA方法不仅提升了领域适应语义分割任务的性能,还展现了良好的领域泛化能力,为未来研究提供了重要启示。

未来研究可进一步探索以下方向:

  1. 伪目标生成模型的优化:提升伪目标图像的真实性与语义对齐能力,例如引入基于生成对抗网络(GAN)或扩散模型的生成框架。
  2. 跨任务迁移:将T2S-DA方法应用于其他任务(如目标检测或实例分割),验证其通用性。
  3. 动态优化策略:开发更精细的动态调整机制,以更好地平衡模型在不同类别上的表现。

T2S-DA为领域适应和泛化研究提供了全新的视角,其显著的性能提升和广泛的适用性将在计算机视觉领域产生深远影响。