基于少量标注像素和点云的弱监督驾驶场景语义分割
基于少量像素标注与点云数据的驾驶场景弱监督语义分割
背景与研究问题
语义分割作为计算机视觉的重要任务之一,在自动驾驶等领域具有广泛应用。然而,传统的全监督语义分割方法需要大量的像素级标注,标注成本高昂。在弱监督语义分割(Weakly Supervised Semantic Segmentation, WSSS)中,通过较少的粗粒度标注(如图片标签、边框、点级标注等)实现像素级分割,极大地降低了标注成本。
现有的WSSS方法大多基于CAM(类激活图)生成初始分割种子,但在复杂的驾驶场景中,这种方法表现不佳。驾驶场景中的图像通常包含多种物体类别,且类别间的遮挡、重叠问题严重,导致现有基于图片标签的WSSS方法难以达到高精度分割效果。
针对这些问题,本研究提出了一种结合少量点标注和点云数据的新型WSSS框架,旨在优化复杂驾驶场景下的分割结果。该框架利用少量类别点标注和点云数据生成伪标签,从而训练语义分割网络,同时不需要额外的点云数据标注。
论文来源
本论文《Few Annotated Pixels and Point Cloud Based Weakly Supervised Semantic Segmentation of Driving Scenes》发表在 International Journal of Computer Vision 上,由Huimin Ma、Sheng Yi、Shijie Chen、Jiansheng Chen 和 Yu Wang等作者合作完成。研究团队来自北京科技大学与清华大学。本研究于2024年1月18日投稿,并于2024年10月9日被接受。
研究方法与流程
1. 研究框架概述
论文提出了一种多维特征融合框架,整合了2D RGB图像特征和3D点云特征,优化伪标签生成流程。框架包含以下三个模块:
- 2D伪标签生成模块:从RGB图像提取高低层次特征,利用点标注生成初始伪标签。
- 3D特征聚类模块:对点云数据进行无监督聚类,生成实例掩码并投影至RGB图像。
- 多层次特征融合模块:融合2D伪标签与3D投影掩码,生成更准确的伪标签。
2. 伪标签生成方法
2.1 初始伪标签生成
- 特征提取:提取像素级(RGB值、超像素)、外观级(颜色分布、边缘特征)和语义级(显著性、类激活图)特征。
- 点标注作用:利用类别点标注提供的位置信息,结合上述特征,通过EM算法计算每一类别的代表特征向量。
- 标签分配:基于点标注生成的特征向量计算每个像素的类别相似性,超过阈值的像素被分配为对应类别。
2.2 点云特征聚类
- 地面点移除:通过拟合地平面去除地面点。
- 聚类算法:采用DBSCAN聚类算法将点云划分为不同的实例,形成3D实例掩码。
- 投影至RGB图像:将点云掩码投影到2D图像,生成稀疏的2D投影掩码。
2.3 多维特征融合
将2D伪标签与3D投影掩码融合以生成最终伪标签: - 融合规则:通过掩码内类别占比确定最终标签,优化了初始伪标签中的噪声区域。 - 修正地面标签:结合地面点投影结果,对伪标签进行进一步修正。
3. 网络训练
利用最终生成的伪标签,采用Deeplab-v2框架训练全监督语义分割网络,从而学习跨样本的类别特征。
实验与结果
1. 数据集与评价指标
实验采用KITTI数据集,其中训练集包含200张图像,测试集包含200张图像。评估指标为mIoU(Mean Intersection over Union)。
2. 实验结果
性能对比
在KITTI数据集上,与其他弱监督方法相比,本方法在多个类别上取得了显著的性能提升: - 训练集结果:本方法mIoU达25.4%(类别)与46.7%(类别组),显著高于基于图片标签的方法。 - 测试集结果:在测试集上,本方法mIoU达21.6%(类别)与48.0%(类别组),再次证明了框架的有效性。
标注效率
相比全监督方法需要430.5小时标注10000张图像,本方法仅需0.9小时标注19个点级标签,大幅降低了标注成本。
3. 消融实验
测试了多种特征融合策略的效果,验证了融合3D点云特征的关键作用。未使用3D特征时,分割性能显著下降,表明点云特征对复杂场景下的伪标签优化具有重要意义。
研究意义与亮点
学术贡献:
- 提出了结合2D与3D多维特征的弱监督分割框架,显著提升了复杂场景下的分割性能。
- 提出了无监督点云聚类与2D投影的融合方法,为未来研究提供了启发。
应用价值:
- 降低了语义分割的标注成本,具有广泛的实际应用潜力。
- 适用于自动驾驶等需要处理复杂场景的领域,提升了分割精度。
创新点:
- 利用点云数据的空间信息优化伪标签。
- 无需额外标注点云数据,充分挖掘其潜在信息。
总结
本文提出的框架成功解决了现有WSSS方法在复杂驾驶场景中的不足,验证了点云数据在弱监督任务中的潜力。未来,研究可进一步扩展至其他场景数据集,并探索更多维度的特征融合方法。