使用FOV IoU实现360° 图像中的对象检测

使用FOV IoU实现360° 图像中的对象检测

360°摄像机近年来在虚拟现实、自动驾驶和安全监控等多个领域中得到了广泛应用。随着360°图像数据的增加,对360°图像识别任务尤其是对象检测的需求也在不断增长。由于传统方法在360°图像处理中的不足,Miao Cao、Satoshi Ikehata和Kiyoharu Aizawa等研究人员提出了两种基础技术:视场IoU(Field-of-View Intersection over Union,简称FOV-IoU)和360度增强(360augmentation),用以改善360°图像中对象检测的效果。

背景和研究动机

现代大多数对象检测神经网络主要设计用于透视图像,但当应用于等距矩形投影(EquiRectangular Projection, ERP)格式的360°图像时,受图像畸变的影响,检测效果会显著降低。传统方法包括将360°信息投影到多个透视图像中,或直接在ERP图像上使用透视对象检测器,但前者面临边界对象检测困难和计算成本高的问题,后者则因ERP图像中的严重畸变和不适当的重叠面积计算(IoU)问题而性能劣化。为此,研究者们提出了基于球面卷积(Spherical Convolution, SphConv)的对象检测模型,但实验结果显示,当整合到最先进的透视对象检测器中时,这些模型依然表现不佳。

另一个关键问题在于360°图像中的IoU计算不当。传统的矩形框在2D图像坐标中不能有效约束球面上的对象,尤其是在高纬度地区。因此逐渐采用视场边界框(简称FOV-BB),但其面积计算十分复杂。为了解决这些问题,本研究提出视场IoU(FOV-IoU)计算方法和360augmentation数据增强技术,并在360-indoor数据集上进行多次实验,验证其有效性和优越性。

作者和发表来源

这篇论文由Miao Cao、Satoshi Ikehata和Kiyoharu Aizawa合作完成,分别来自东京都大学和日本国立信息研究所(National Institute of Informatics)。相关研究已经通过IEEE Transactions on Image Processing期刊(2023年8月)发表。

研究工作流程

1. 视场IoU(FOV-IoU)的提出

研究最先介绍了视场边界框(FOV-BB)的基本概念及其在极限图像中的应用。传统的IoU计算方法在处理360°图像上表现不佳,尤其在高纬度地区表现尤为明显。为此,FOV-IoU采用了一种新的计算方法,以更准确地近似两个FOV-BB之间的IoU。

具体来说,研究提出了防止计算错误的视场距离(FOV Distance),利用球面公式和大圆距离(即球面上两点之间的最短距离)来计算交集区域,并依此得到准确的IoU值。与传统sph-iou(球面IoU)方法相比,FOV-IoU能更有效地处理高纬度地区的对象检测,大大提升了准确性和计算效率。

2. 360augmentation数据增强技术

由于360°图像的特殊性,传统的几何变换(如旋转和平移)方法不适用。研究提出了360augmentation技术,包括垂直旋转和水平平移两个策略,以增加训练数据的多样性,同时保持ERP图像的球面坐标映射。

具体来说,360augmentation模拟人类使用VR设备时旋转头部查看不同方向的过程,通过随机选择角度在水平和垂直方向上进行图像和边界框的转换。通过这样的处理方式,训练数据能够更好地保留360°图像的特性,并提升高纬度地区对象检测的准确性。

主要实验结果和分析

1. 视场IoU vs 球面IoU

研究在多个实验中验证了FOV-IoU计算方法的准确性和效率。实验结果显示,FOV-IoU不仅在不同纬度上更加准确,而且在计算效率上与sph-iou相当,甚至更好。此外,集成了FOV-IoU的对象检测模型在非最大抑制(NMS)阶段能够更好地过滤冗余预测,提高了预测结果的可信度。

2. FOV-GIoU损失函数

研究整合了FOV-IoU到广义IoU(Generalized IoU, GIoU)损失函数中,提出了FOV-GIoU损失,用以训练对象检测模型。实验结果表明,采用FOV-GIoU损失的模型在高纬度区域的检测准确率大幅提升,相比于传统的sph-giou损失效果更优。

3. 360augmentation的有效性

在多个对象检测模型中,研究将360augmentation技术与FOV-GIoU损失结合使用,训练了多种最先进的对象检测器,如Faster R-CNN、YOLOv3等。实验结果显示,360augmentation显著提升了训练数据的多样性和检测准确性,尤其在高纬度区域的表现尤为突出。

4. 与其他360°对象检测方法的对比

研究还将提议的方法与其他为360°图像设计的对象检测架构(如s2cnn、spherenet等)进行了对比。结果显示,采用FOV-IoU和360augmentation的透视对象检测器在整体准确率上显著优于其他方法,尤其在高纬度区域具备更优越的检测能力。

结论与研究价值

本研究提出的视场IoU计算方法和360augmentation数据增强技术为360°图像的对象检测提供了新思路与技术支持。这些方法不仅显著提升了检测精度和计算效率,还具备很强的通用性,可与现有的透视对象检测器轻松整合。尽管这些方法在处理高纬度区域变形严重的对象时仍存在一定局限性,但作为应对360°图像检测问题的开创性工作,其科学价值和应用前景不容忽视。