基于Lidar引导的视觉中心3D物体检测的几何预训练
基于LiDAR引导的几何预训练方法提升视觉中心3D目标检测性能
背景介绍
近年来,多摄像头3D目标检测在自动驾驶领域受到了广泛关注。然而,基于视觉的方法在从RGB图像中精确提取几何信息方面仍面临挑战。现有的方法通常利用深度相关任务对图像骨干网络进行预训练以获取空间信息,但这些方法忽略了视角转换的关键问题,导致空间知识在图像骨干和视角转换模块之间存在错位,从而影响了性能。为了解决这一问题,本文提出了一种新颖的几何感知预训练框架——GAPretrain。
论文来源
该论文由Linyan Huang, Huijie Wang, Jia Zeng等作者撰写,他们分别来自厦门大学人工智能系、上海AI实验室OpenDriveLab以及上海交通大学。论文发表于《International Journal of Computer Vision》期刊,接收日期为2023年4月13日,接受日期为2025年1月6日。
研究流程与结果
研究流程
统一BEV表示:
- 为了弥合不同传感器之间的视图差异,研究者将图像特征和点云数据都转换成统一的鸟瞰图(Bird’s-Eye-View, BEV)表示。具体来说,点云数据通过稀疏卷积神经网络处理后,将其高度维度压缩成BEV特征图。同时,多视角RGB图像经过2D骨干网络提取特征,并通过视角转换模块生成BEV特征图。
- 为了使两种模态的数据能够对齐,研究者设计了一个归一化操作来规范化BEV特征图,计算所有训练数据的通道统计量。
LiDAR到相机的预训练:
- 在预训练阶段,研究者首先使用3D目标检测任务对LiDAR模型进行训练,然后利用其生成的BEV特征图作为预训练目标。为了减少不同通道值分布的任意性,研究者对BEV特征图进行了归一化处理。
- 为了更好地对齐LiDAR和相机的BEV表示,研究者设计了一个LiDAR引导的掩码生成模块。该模块通过将LiDAR点云投影到网格上,计算每个网格中的点数,并应用高斯平滑核来密集化LiDAR注意力图。此外,研究者还设计了一个目标感知几何相关模块,通过提取实例特征并计算其几何信息来进行像素级的知识转移。
微调:
- 在微调阶段,研究者直接使用预训练参数,并仅使用图像作为输入,不再需要LiDAR点云。为了确保相机模型的BEV表示与LiDAR模型一致,研究者设计了相同的检测头架构,并在微调过程中使用了LiDAR头参数。
主要结果
- 实验设置:研究者在NuScenes数据集上进行了实验,该数据集包含1000个驾驶场景,其中700个用于训练,150个用于验证,150个用于测试。每个场景持续约20秒,采样频率为2Hz。
- 性能提升:实验结果表明,GAPretrain方法显著提升了多种现有方法的性能。例如,在使用BEVFormer方法时,GAPretrain在NuScenes验证集上实现了46.2%的mAP和55.5%的NDS,分别提高了2.7%和2.1%。
- 消融实验:通过消融实验,研究者验证了各个模块的有效性。预训练蒸馏模块提高了2.4%的mAP,而掩码生成模块进一步提高了5.9%的对象定位精度。目标感知几何相关模块也带来了0.4%的NDS性能提升。
结论
本研究提出了一种新的几何感知预训练框架GAPretrain,通过结合LiDAR丰富的几何信息来指导相机模型的预训练过程。实验结果表明,该方法不仅提高了现有方法的性能,而且具有良好的泛化能力。未来的工作可以进一步探索如何生成更具代表性和鲁棒性的预训练目标,以提高远距离物体的检测性能。
研究亮点
- 解决了视角转换中的空间知识错位问题:通过引入LiDAR引导的掩码生成和目标感知几何相关模块,有效提升了相机模型的空间信息准确性。
- 插件式解决方案:GAPretrain方法可以灵活应用于多种现有的多视角相机模型,具有很好的通用性。
- 充分利用未标注数据:在预训练阶段,可以利用大量未标注数据来进一步提升模型性能。
通过这项研究,研究者为基于视觉的3D目标检测提供了一种有效的预训练策略,有望在未来推动自动驾驶技术的发展。