适应性识别和优化不良区域以实现准确的立体匹配

适应性识别和优化不良区域以实现准确的立体匹配

研究背景和动机

随着计算机视觉技术的快速发展,立体匹配技术因其高准确性、成本效益及非侵入性,在机器人、航天、自动驾驶和工业制造等诸多领域中发挥了至关重要的作用。然而,立体匹配在处理遮挡区域、模糊区域时,像素对之间的一致性约束变得不可靠,导致隐藏对应关系探索的困难。因此,尽管在卷积神经网络(CNN)和基于变换器(Transformer)的研究进展迅速,多数方法在处理不良区域时仍存在性能瓶颈。为了应对这一挑战,研究团队引入了一种误差区域特征优化机制以提供上下文特征,从而改进不良区域的立体匹配效果。 ERCNet的架构

研究来源和简介

本文题为”Adaptively Identify and Refine Ill-Posed Regions for Accurate Stereo Matching”,作者为Changlin Liu、Linjun Sun、Xin Ning及其他研究者,分别来自中国科学院半导体研究所和华南师范大学半导体科学与技术学院。该研究论文将发表于2024年的《Neural Networks》期刊。此项研究在2023年10月31日收到,2024年4月26日修订,2024年5月15日最终接受。

研究工作流程

本研究包括多个核心步骤,概述如下:

1. 特征提取

利用一种类似ResNet的结构从RGB图像中提取多尺度信息。具体过程为:RGB图像经过三层不同步长的卷积层,特征降采样至1/4分辨率,并扩展通道。接着,通过ResNet层生成图像特征(l1, l2, l3, l4)。这些特征被连接成一个320通道的特征图,供后续预测网络和错误区域优化模块使用。

2. 集团式双约束成本量(DCV)

为了提前检测并优化匹配特征,本研究构建了一种结合图像和几何约束的DCV。具体地,该方法包括以下步骤:

  • 选择约束:区别和相关性约束共同构建DCV。区别成本使用绝对差值,而相关性成本则使用归一化互相关(NCC)。
  • 多级匹配成本计算:在匹配窗口内计算特征的点积,并将九点坐标集内的像素匹配成本作为权重,最后通过3D卷积层融合多个成本卷积。

3. 错误区域特征优化机制(EFR)

这是本研究的关键创新,具体过程如下:

  • 使用前后端成本通过小时玻璃结构计算的视差图,若未聚合成本区域的视差波动较大,判定为潜在错误区域。
  • 设计一个变换器来选择性扩展不良区域的特征,通过结合全局信息调整和压制冗余特征。

4. 主要预测网络

网络整合扩展的成本卷积,通过叠加的小时玻璃结构计算最终视差。其中包括四层3D卷积、ReLU、批量归一化和小型变换器结构,最终通过3D反卷积层和初始分辨率恢复过程,生成概率体积,计算匹配视差。

主要研究结果

实验验证

在多个数据集上的实验结果显示,ERCNet在Scene Flow、KITTI 2012、KITTI 2015、ETH3D和Middlebury 2014数据集上表现出色。DCV和EFR的加入显著提高了网络在不良区域的匹配准确性和鲁棒性,并有效减少了纹理过拟合。

  • Scene Flow:ERCNet 达到0.45 px的EPE(终点误差),优于其他最新算法的的0.47px。
  • KITTI 2012和2015:对比其他方法,ERCNet在大部分指标上表现最佳,2020-2024两年内测试结果均表明其在复杂场景下的优秀表现。
  • ETH3D 和 Middlebury 2014:实验展示了ERCNet的高鲁棒性和跨域泛化能力。

纹理过拟合的解决方案

研究中,通过EFR和DCV的结合,有效抵消了强纹理区域带来的过拟合问题。模型在不进行微调的情况下,通过预训练权重在KITTI 2015数据集上的测试中,体现了明显的优势。

不良区域提取性能

通过提取不同场景的不良区域,研究展示了模型在处理重复纹理、无纹理及视差不连续区域方面的优势。尤其是在真实场景中,所提取的不良区域显著增强了模型的复杂场景适应能力。

结论与未来工作

该研究提出的ERCNet框架,通过错误识别和特征优化有效改进了不良区域的立体匹配,为立体匹配提供了更多约束线索和鲁棒的视差推断能力。在多个基准数据集上,研究展现了远超现有方法的精度表现,证明了其处理不良区域的潜力及在新场景中的优秀泛化性。未来的工作将致力于开发更轻量化的立体匹配模型,提升算法在实际环境中的应用能力,并继续优化聚合阶段的扰动应用,减少对固定扰动阈值的依赖,以在更复杂的场景中提升模型鲁棒性和数据标注的自动化程度。