本文由Yumin Suh、Dongwan Kim、Abhishek Aich、Samuel Schulter、Jong-Chyi Su、Bohyung Han和Manmohan Chandraker共同撰写,分别来自NEC Laboratories America和首尔国立大学(Seoul National University)。该研究发表于CVPR(计算机视觉与模式识别会议)的研讨会论文集,旨在探讨DETR(Detection Transformer)风格模型在实践中的效率与精度之间的权衡问题。
DETR架构是目前目标检测领域的最先进技术,例如在COCO测试集上达到了66%的平均精度(AP)。尽管这些模型在精度上表现出色,但其实际推理速度的研究却相对较少。这引发了一个关键问题:如何在实践中最小化DETR风格模型的计算成本,同时减少精度下降的可能性?为此,本文研究了现有技术对推理效率的影响,特别是输入分辨率、多尺度特征增强和骨干网络预训练等因素。
本文的研究流程包括以下几个步骤:
输入分辨率的调整:通过调整输入图像的分辨率,研究其对模型效率和精度的影响。实验表明,较大的骨干网络配合较小的输入分辨率(如DINO-SwinB,640×640)可以在减少计算量的同时,获得更高的精度。
多尺度特征增强的轻量化:多尺度特征增强器(也称为Transformer编码器)可以通过轻量化设计来减少计算量,同时仅带来微小的精度下降。本文采用了LiteDETR方法,通过跳过部分尺度的计算来降低计算成本。
骨干网络预训练的改进:通过改进骨干网络的预训练策略,可以进一步提升模型的效率与精度之间的权衡。本文使用了SSLD(Self-Supervised Learning Distillation)方法,通过无标签数据进行知识蒸馏,显著提升了模型的精度。
实验结果表明: 1. 输入分辨率的调整:较小的输入分辨率可以显著减少计算量,同时保持较高的精度。例如,DINO-SwinB模型在640×640分辨率下的精度比DINO-Res50在857×1045分辨率下的精度高出3.5%,且计算量更少。
多尺度特征增强的轻量化:通过跳过部分尺度的计算,多尺度特征增强器的计算量可以大幅减少,而精度下降幅度较小。实验表明,LiteDETR方法在减少计算量的同时,精度仅下降了0.5%左右。
骨干网络预训练的改进:使用SSLD预训练的骨干网络(如Res50+)比标准预训练的骨干网络(如Res50)在相同计算量下,精度提高了4%。
本文通过系统性的实验,验证了输入分辨率调整、多尺度特征增强轻量化和骨干网络预训练改进在提升DETR风格模型效率与精度权衡中的有效性。这些技术可以单独使用,也可以组合使用,以进一步优化模型的性能。本文的研究为实际应用中的目标检测模型提供了重要的优化思路,尤其是在计算资源有限的情况下,能够在不显著牺牲精度的情况下大幅提升推理速度。
输入分辨率调整的简单有效性:本文首次系统性地验证了输入分辨率调整对DETR风格模型效率与精度权衡的影响,证明了其在实践中的简单性和有效性。
多尺度特征增强的轻量化设计:通过LiteDETR方法,本文展示了多尺度特征增强器可以通过轻量化设计显著减少计算量,同时保持较高的精度。
骨干网络预训练的改进:本文提出的SSLD预训练方法显著提升了骨干网络的性能,为DETR风格模型的精度提升提供了新的思路。
本文还探讨了其他效率优化技术,如数据精度(FP16和AMP)和映射优化(TensorRT),并展示了这些技术在提升模型推理效率方面的潜力。此外,本文还提供了详细的实验数据和图表,为后续研究提供了丰富的参考依据。
总的来说,本文为DETR风格模型的效率优化提供了全面的视角,并为实际应用中的目标检测任务提供了重要的技术指导。