CANet:基于上下文感知的多视角立体网络实现高效边缘保留深度估计
学术背景与问题提出
多视角立体视觉(Multi-View Stereo, MVS)是三维计算机视觉中的一项基础任务,旨在从多个视角的图像中恢复场景的三维几何结构。这一技术在机器人、场景理解、增强现实等领域具有广泛的应用。近年来,基于学习的MVS方法通过采用从粗到细的深度估计框架取得了显著进展。然而,现有方法在无纹理区域、物体边界和薄结构区域的深度恢复上仍面临困难,主要原因包括低纹理区域的匹配线索区分度差、用于成本体积正则化的3D卷积神经网络(3D CNN)固有的平滑特性,以及最粗尺度特征的信息丢失。
为了解决这些问题,本文提出了一种上下文感知的多视角立体网络(Context-Aware Multi-View Stereo Network, CANet),利用图像中的上下文信息实现高效的边缘保持深度估计。通过引入自相似性注意力成本聚合模块(Self-Similarity Attended Cost Aggregation, SAA),CANet能够在成本体积中建模长程依赖关系,从而增强无纹理区域的匹配能力。此外,通过分层边缘保持残差学习模块(Hierarchical Edge-Preserving Residual Learning, HEPR),CANet能够逐步细化多尺度深度估计,最终在边缘处实现精细的深度估计。为了丰富最粗尺度的特征,CANet还引入了焦点选择模块(Focal Selection Module, FSM),通过增强初始深度的恢复能力,捕捉薄结构等细节。
论文来源与作者信息
本文由Wanjuan Su和Wenbing Tao撰写,两人均来自华中科技大学人工智能与自动化学院的多光谱信息处理国家重点实验室。论文于2024年5月5日提交,2024年12月17日被接受,并于2025年发表在International Journal of Computer Vision期刊上。
研究流程与实验设计
1. 研究流程
CANet的研究流程主要包括以下几个步骤:
1.1 多尺度特征提取
CANet首先通过焦点感知的多尺度特征提取网络(Focal-Aware Multi-Scale Feature Extraction Network)从输入图像中提取多尺度特征。该网络在UNet的基础上嵌入了焦点选择模块(FSM),以增强最粗尺度特征的表达能力。FSM通过融合来自编码器的更细尺度特征,并在通道和空间维度上进行焦点选择,从而增强关键区域的响应。
1.2 自相似性注意力成本聚合(SAA)
为了应对无纹理区域的匹配难题,CANet引入了自相似性注意力成本聚合模块(SAA)。该模块通过高效的注意力机制提取参考视图中的自相似性信息,并将其用于指导成本体积的聚合。具体来说,SAA模块首先通过交叉协方差注意力机制计算自相似性权重,然后将这些权重应用于原始成本体积,生成上下文丰富的成本体积。
1.3 分层边缘保持残差学习(HEPR)
为了在深度估计中保持边缘信息,CANet设计了分层边缘保持残差学习模块(HEPR)。该模块通过逐步学习深度残差图,将高频细节融入由主干网络预测的深度图中,从而实现边缘保持的上采样和深度细化。HEPR模块在中间金字塔阶段同时进行深度细化和上采样,避免了传统方法中仅对最终深度图进行单阶段细化或上采样的局限性。
1.4 轻量级级联框架
为了在保持高性能的同时降低计算资源消耗,CANet采用了轻量级级联框架。该框架通过在同一分辨率下堆叠两个阶段,并在低分辨率下最大化深度假设采样,从而在不牺牲细粒度深度采样和成本体积正则化网络规模的情况下,显著减少了内存和运行时间的消耗。
2. 实验结果
2.1 主要结果
CANet在多个MVS基准数据集上进行了广泛的实验,结果表明其在重建质量和效率方面均表现出色。特别是在Tanks and Temples Advanced数据集和ETH3D High-Res基准测试中,CANet在所有已发表的基于学习的方法中排名第一。具体来说,CANet在GPU内存消耗和运行时间上分别减少了78.49%和57.35%,并且在重建质量上与最先进的方法相当。
2.2 结论与意义
CANet的主要贡献包括: 1. 提出了一种新的上下文感知多视角立体网络,充分利用图像中的上下文信息进行高质量的边缘感知深度估计,同时保持较低的内存和运行时间消耗。 2. 设计了自相似性注意力成本聚合模块,通过全局上下文信息指导成本体积的聚合,增强无纹理区域的匹配能力。 3. 提出了分层边缘保持残差学习模块,支持无模糊的深度上采样。 4. 开发了焦点选择模块,使最粗尺度的特征能够更多地关注关键区域,从而产生更好的初始深度。
研究亮点
- 创新性:CANet通过引入自相似性注意力成本聚合模块和分层边缘保持残差学习模块,显著提升了无纹理区域和边缘区域的深度估计精度。
- 高效性:通过轻量级级联框架的设计,CANet在保持高性能的同时,显著降低了计算资源消耗。
- 广泛适用性:CANet在多个基准数据集上表现出色,特别是在Tanks and Temples和ETH3D等复杂场景中,展现了强大的泛化能力。
总结
CANet通过结合上下文信息、自相似性注意力机制和边缘保持残差学习,提出了一种高效且精确的多视角立体深度估计方法。该方法不仅在多个基准数据集上取得了最先进的性能,还在计算资源消耗和运行效率上表现出色,为三维重建领域提供了新的解决方案。