CANet:基于上下文感知的多视角立体网络实现高效边缘保留深度估计

学术背景与问题提出 多视角立体视觉(Multi-View Stereo, MVS)是三维计算机视觉中的一项基础任务,旨在从多个视角的图像中恢复场景的三维几何结构。这一技术在机器人、场景理解、增强现实等领域具有广泛的应用。近年来,基于学习的MVS方法通过采用从粗到细的深度估计框架取得了显著进展。然而,现有方法在无纹理区域、物体边界和薄结构区域的深度恢复上仍面临困难,主要原因包括低纹理区域的匹配线索区分度差、用于成本体积正则化的3D卷积神经网络(3D CNN)固有的平滑特性,以及最粗尺度特征的信息丢失。 为了解决这些问题,本文提出了一种上下文感知的多视角立体网络(Context-Aware Multi-View Stereo Network, CANet),利用图像中的上下文信息实现高效的边缘保...